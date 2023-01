Facepalm : En tant que quatrième moteur de recherche au monde, Yandex est un véritable géant de la technologie proposant de nombreux services numériques ou augmentés numériquement. La société a été impliquée dans un incident de sécurité récent, qui fournira des résultats intéressants pour le marché du référencement au moins.

Près de 50 gigaoctets de données volées des services Yandex ont récemment été partagées en ligne. La société essaie de minimiser la fuite, mais le code source partagé via torrent peut révéler de nombreuses informations utiles sur le fonctionnement réel de ses services – et du moteur de recherche Web en particulier.

La fuite s’est produite le 25 janvier et impliquait une liste de fichiers qui avaient apparemment été volés en juillet 2022 dans un référentiel datant de février 2022 – le mois où la Russie a commencé son invasion à grande échelle de l’Ukraine. Le torrent ne semble pas contenir de données (ou de binaires prédéfinis), à l’exception du code source de tous les principaux services Yandex, y compris le moteur de recherche avec son robot d’indexation, Maps (la version russe de Google Maps et Street View), Uber- comme le service Taxi, Mail, Market (alternative Amazon), la plateforme cloud et bien plus encore.

Selon l’ingénieur logiciel Arseniy Shestakov, la fuite est un gros problème. « Imaginez une entreprise » capable de remplacer à la fois Google, Uber, Amazon, Netflix et Spotify, a déclaré le codeur. La fuite est également légitime, car Shestakov s’est entretenu avec différentes personnes qui travaillaient dans l’entreprise (ou y travaillent encore) et a déclaré que certaines des archives contiennent du « code source moderne » pour les services Yandex et de la documentation pointant vers de véritables URL intranet.

L’une des facettes les plus intéressantes – et potentiellement dommageables – de la fuite est le code source du moteur de recherche Yandex, à savoir les facteurs de classement utilisés par l’algorithme pour fournir des résultats aux requêtes de recherche des utilisateurs. La fuite répertorie 1 922 facteurs de classement uniques, dont la majorité sont marqués comme « obsolètes » et ont probablement été remplacés dans les versions les plus récentes du code Yandex.

Le premier facteur de classement utilisé par le moteur de recherche russe est « PAGE_RANK », qui est une référence claire à l’algorithme le plus important utilisé par Google pour classer les pages Web. En ce qui concerne la propre recherche Web de Yandex, l’algorithme divulgué semble favoriser les pages qui ne sont pas trop anciennes, ont beaucoup de trafic organique (c’est-à-dire des visiteurs uniques), sont optimisées pour le code et sont hébergées sur des serveurs fiables ou sont des pages Wikipedia.

La fuite de Yandex offre sûrement beaucoup d’informations aux professionnels du référencement sur le fonctionnement réel d’un moteur de recherche de classe mondiale, même si les implications en matière de sécurité ne devraient pas être si intéressantes. Shestakov a déclaré qu’aucune donnée personnelle n’était impliquée et que les quelques clés API n’avaient probablement été utilisées que pour les tests.

Le communiqué de presse officiel de Yandex sur l’incident a déclaré que les fragments de code divulgués sont « obsolètes et diffèrent de la version actuellement utilisée » par ses services, tandis que certains des fragments publiés « n’ont jamais été réellement utilisés dans les opérations ».

La société enquête toujours sur l’incident apparemment politiquement motivé et prendra toutes les mesures possibles pour améliorer sa surveillance de la gestion afin qu’il n’y ait plus de fuites à l’avenir.