Les référenceurs sous-estiment-ils la fuite Yandex ?

Publié: 2023-04-01

De nombreux référenceurs ont rapidement rejeté la fuite du code source de Yandex. Y a-t-il quelque chose qui leur manque? Ou les SEO sous-estiment-ils ce que la fuite pourrait les aider à apprendre et à comprendre sur le SEO ?

Voici une petite histoire :

Vers la fin janvier (2023), il a été signalé qu'un pirate informatique avait mis la main sur environ 45 Go de code source Yandex, y compris leurs coefficients (pondérations) et la liste des facteurs de classement.

C'est l'équivalent de découvrir les algorithmes de recherche de Google. Il y avait beaucoup de battage médiatique autour de cela, et une grande partie de la communauté SEO a travaillé 24 heures sur 24 pour essayer de décoder le matériel.

Cependant, cela n'a pas été sans quelques doutes de Thomas, prompt à rejeter la fuite avec des arguments tels que :

Yandex n'est pas Google
Nous ne pouvons pas déterminer si la fuite est réelle
Quelle est cette obsession des facteurs de classement ?
C'est juste une copie. Yandex a gratté Google.
La fuite n'est qu'une infime partie du code source de Yandex. Cela ne dit rien sur la façon dont Yandex classe les sites Web.
Il n'y a rien de nouveau ici.
Le dépôt de code est obsolète

Cela crie-t-il à l'ignorance ou ont-ils raison ?

La fuite n'est peut-être pas complète, mais elle est toujours utile. Même si le code est daté, il révèle l'évolution des moteurs de recherche.

La plupart d'entre nous n'ont jamais eu une meilleure compréhension du fonctionnement des moteurs de recherche modernes. Une grande partie de ce que nous savons n'est que pure spéculation.

Notre point de vue : la réaction que nous voyons est principalement basée sur la peur de l'inconnu, le fait d'avoir tort, d'avoir moins de place pour l'interprétation et de perdre du temps et des efforts.

Être prudent, c'est bien, mais rejeter carrément la fuite crie l'ignorance.

Ne vous laissez pas distancer - plongeons et explorons.

Les objections les plus courantes à la fuite de code source Yandex

The Most Common Objections to the Yandex Source Code Leak | MediaOne Marketing Singapore

Certains référenceurs ont rapidement négligé le potentiel de cette fuite, avec quelques objections intéressantes. Examinons ces arguments et voyons s'ils tiennent le coup.

Objection 1 : Yandex n'est pas Google

Yandex et Google sont en effet deux moteurs de recherche très différents. Mais vous trouverez quelques chevauchements lorsque vous comparerez leurs résultats de recherche.

Exécutons quelques requêtes de recherche et comparons les résultats. Par exemple, recherchez "les meilleures cartes de crédit" sur Yandex et Google.

Voici les dix meilleurs résultats :

Meilleures cartes de crédit
	Google	Yandex
Poste 1	Meilleures cartes de crédit Singapour 2023 \| Appliquer maintenant! – MoneySmart	Meilleures cartes de crédit Singapour 2023 \| Appliquer maintenant! - Argent intelligent
Poste 2	Meilleures cartes de crédit à Singapour 2023 - Value Champion	5 meilleurs plans de carte de crédit à Singapour pour tous les besoins (2021) – Bestinsingapore
Poste 3	Meilleures promotions de cartes de crédit à Singapour (mars 2023) - Sing Saver	Meilleures cartes de crédit à Singapour pour 2023 \| Finder Singapour – finder.com
Poste 4	Meilleures cartes de crédit à Singapour 2023 – Seedly	Comparez les meilleures cartes de crédit à Singapour [2023] – Finty
Poste 5	Meilleurs bonus d'inscription par carte de crédit à Singapour (mars 2023) - Suite Smile	5 meilleures cartes de crédit à Singapour pour les dépenses globales (2023) - Prêt instantané
Poste 6	Comparez les meilleures cartes de crédit à Singapour [2023] – Finty	Cartes de crédit à Singapour : offres de février 2023 \| SingSaver
Poste 7	Comparez les cartes de crédit Singapour – DBS Bank	Les 5 MEILLEURES cartes de crédit à Singapour 2021 – YouTube
Poste 8	Demander une carte de crédit par Trust \| Trust Bank Singapour	Meilleures cartes de crédit pour les achats en ligne et les paiements mobiles - Champion de la valeur

Comme vous pouvez le voir, la moitié des résultats sont les mêmes.

1/10 des résultats occupent la même position.

Faisons maintenant de même avec d'autres mots clés et voyons comment ils se superposent :

Mots clés	Le nombre de résultats similaires dans le top 10	Le nombre de résultats avec la même position
Les meilleures cartes de crédit à Singapour	5/10	1/10
Les meilleurs hôtels de New York	6/10	0/10
Le meilleur logiciel CRM	2/10	0/10
Comment supprimer une branche dans Git	3/10	1/10
Comment former un chiot à la propreté	1/10	1/10
Appartement de 3 chambres à Moscou	5/10	0/10
Symptômes courants du rhume	2/10	0/10

Vous pourriez discuter des meilleurs résultats, mais les chevauchements nous disent quelque chose d'intéressant. C'est un signe que des facteurs de classement similaires existent dans les deux moteurs de recherche et qu'ils ne sont pas entièrement différents.

Ainsi, le fait que Yandex ne soit pas Google ne signifie pas que la fuite n'est pas pertinente.

Objection 2 : nous ne pouvons pas déterminer si la fuite est réelle

Yandex a officiellement confirmé la fuite, il ne fait donc aucun doute que cela s'est produit ( source ).

Mais si vous ne le croyez pas, regardez le dépôt du code. Vous pouvez le comparer à d'autres projets et voir comment la structure, le formatage et la syntaxe correspondent à ce que vous attendez d'un code professionnel.

Objection 3 : Quelle est cette obsession pour les facteurs de classement ?

L'obsession des facteurs de classement est compréhensible si l'on considère le temps et l'argent consacrés au référencement. Il est naturel de vouloir un avantage sur vos concurrents.

A LIRE AUSSI Comment lancer une académie d'apprentissage en ligne ?

Connaître les facteurs de classement peut vous aider à mieux optimiser votre site Web. Il vous donne une compréhension du fonctionnement des moteurs de recherche et vous permet d'adapter votre contenu en conséquence.

Objection 4 : Ce n'est qu'une copie.Yandex a gratté Google

Certains des facteurs de classement découverts à partir de la fuite de Yandex correspondent à ceux utilisés par Google. Mais cela ne signifie pas que Yandex a copié son algorithme.

obtenir une annonce de classement google

Les deux moteurs de recherche utilisent des méthodes différentes pour calculer la pertinence du contenu. Yandex a sa propre approche unique, que vous pouvez voir dans le référentiel de code.

Yandex a peut-être adopté certaines des meilleures pratiques de Google, mais le code contient encore de nombreux arguments de vente uniques.

Objection 5 : La fuite n'est qu'une infime partie du code source de Yandex

C'est peut-être vrai, mais cela nous donne tout de même un aperçu du fonctionnement de Yandex. Le code source est une grande partie du puzzle ; sa compréhension peut fournir des informations précieuses.

L'argument avancé par la plupart des référenceurs est qu'un seul référentiel a été divulgué et qu'un moteur de recherche aussi géant ne peut pas se résumer à un seul référentiel de code.

Eh bien, même si la plupart des moteurs de recherche de Google sont basés sur un référentiel unique, c'est toujours le moteur de recherche le plus puissant au monde.

source

Objection 6 : Il n'y a rien de nouveau ici

En effet, la plupart des facteurs de classement découverts lors de la fuite du code source de Yandex ne sont pas révolutionnaires. Ce sont des choses que nous savions déjà et dont nous parlions depuis des années.

Mais ce n'est pas vrai :

Ce que nous prétendons déjà savoir n'est que pure conjecture.

Nous connaissons le SEO grâce à nos expériences, expérimentations, études théoriques, anecdotes, etc.

Nous n'avions jamais vu ces signaux de classement dans le code source jusqu'à présent. C'est la première fois que les professionnels peuvent confirmer ces théories et avoir des preuves réelles pour les étayer.

Faits saillants du référencement du code source Yandex

Quelques référenceurs ont pris l'initiative d'étudier le code source et de décomposer ce qu'ils ont trouvé.

Voici quelques points importants:

#1.Liste des facteurs de classement Yandex par Martin MacDonald

Martin MacDonald , auteur et fondateur de Web Marketing School, a compilé une liste de facteurs de classement Yandex à partir de la fuite de code source.

Il a découvert qu'il existe bien plus de 1922 facteurs de classement individuels, en commençant par le Page Rank (PR) et en passant par les éléments basés sur le texte/contenu, les balises méta, la structure des liens, etc.

Ben Wills a parcouru le code et a calculé le nombre réel. Il s'avère que Yandex a 17854 facteurs de classement.

#2.19 % des facteurs de classement se concentrent sur les signaux des utilisateurs, 6 % sur la pertinence du contenu et 6 % sur les liens (par Malte Landwehr)

Malte Landwehr, responsable du référencement chez Idealo, a analysé en profondeur le code source et en a extrait des informations précieuses.

Il a découvert que 19 % des facteurs de classement de Yandex se concentrent sur les signaux des utilisateurs (par exemple, le taux de rebond), 6 % sur la pertinence du contenu (par exemple, la densité des mots clés) et 6 % sur les liens (par exemple, la qualité des liens entrants).

Les conclusions de Malte semblent confirmer ce que SEMrush a rapporté lors de la publication de son étude sur les facteurs de classement qui a montré que le trafic vers un site Web avait le coefficient de classement le plus élevé. La communauté SEO les a rapidement critiqués, mais les conclusions de Malte concordent avec leur affirmation.

#3.Il y avait environ 40 facteurs de classement liés à la qualité dans le code (Malte Landwehr)

À partir de son analyse, Malte Landwehr a également découvert que le code comportait environ 40 facteurs de classement liés à la qualité.

Ces facteurs de classement ont été divisés en trois :

Héberger
Page
Texte

Site/Hébergeur/Qualité

Yandex fait attention aux détails du site. Ils examinent la fraîcheur moyenne du contenu, la qualité moyenne du texte et les performances historiques de votre contenu (plus de 10 facteurs). Ils procèdent ensuite à la catégorisation du site d'hébergement comme étant de qualité faible, acceptable, bonne ou excellente.

Leurs règles YMYL sont spécifiques à l'hôte et non au document. En d'autres termes, Yandex examine le contenu de votre site Web de manière globale plutôt que page par page.

Qualité des pages

Yandex examine également la qualité de la page elle-même.

Ils examineront le code d'état 404 du contenu intégré ou lié. Ils marqueront votre page comme étant de mauvaise qualité si le contenu est introuvable.

Les fichiers vidéo cassés sont les pires ; Yandex marquera votre page comme étant de mauvaise qualité si une est détectée.

Qualité du texte

Yandex examine également le texte d'une page.

Tout d'abord, ils examineront l'occurrence naturelle des verbes, des pronoms, des adjectifs, des noms, des adverbes et d'autres parties du discours.

Ils utilisent également diverses méthodes pour détecter le contenu généré automatiquement et le contenu plagié.

Les facteurs de classement sont spécifiques à la requête

On prétend depuis longtemps que les facteurs de classement sont de plus en plus spécifiques à une catégorie.

Cela a été vrai pour Google et d'autres moteurs de recherche, mais Yandex va plus loin.

Non seulement ils examinent la catégorie ou le mot-clé, mais ils examinent également la requête elle-même.

A LIRE AUSSI Meilleures applications d'achat en ligne à Singapour

Leur code source comprend des facteurs de classement statiques, binaires et spécifiques à la requête.

Les facteurs statiques s'appliquent au site Web, les facteurs dynamiques s'appliquent à la requête et les facteurs utilisateur sont liés à la langue, à l'historique de recherche, à l'emplacement et à d'autres données de l'utilisateur.

Les 17854 facteurs de classement

Martin MacDonald, Ben Wills et Malte Landwehr conviennent tous que Yandex a des facteurs de classement impressionnants.

Ensemble, ils ont calculé qu'il existe 17 854 facteurs de classement individuels.

Ces facteurs de classement sont construits autour de différentes modalités. Cependant, à partir de là, seul 1922 n'est pas obsolète.

De la même manière que les humains ont du mal à comprendre l'impact de l'intérêt composé, il est incroyablement difficile d'estimer le résultat de ces algorithmes. Ajoutez au mélange des facteurs de classement dégradés et binaires, spécifiques à la requête et à l'utilisateur, et vous obtenez un cauchemar algorithmique.

L'ingénierie inverse devient presque impossible. Le fait qu'il y ait autant de pièces mobiles, sans oublier l'écosystème Web, fait de l'algorithme de Yandex une énorme énigme. Cela le rend également encourageant car cela montre que les géants des moteurs de recherche considèrent différents aspects d'un site Web pour déterminer son classement plutôt que de se concentrer sur une ou deux facettes.

Yandex semble suivre les meilleures pratiques de récupération d'informations similaires à celles de Google

Bien que leur algorithme soit incroyablement complexe et difficile à rétroconcevoir, il existe des similitudes avec les meilleures pratiques de Google, telles que l'index inversé ou les incorporations.

Yandex utilise également différents modèles, comme le réseau de neurones MatrixNet, pour déterminer leurs coefficients de rang. N'oubliez pas que MatrixNet était une chose à l'époque avant que CatBoost ne le remplace en 2007.

Savoir comment et où MatrixNet est utilisé dans leur algorithme vous donnera une idée de la quantité d'efforts des moteurs de recherche modernes pour ajuster et affiner leurs modèles de classement.

Alors, les référenceurs sous-estiment-ils la fuite Yandex ?

Pour comprendre les véritables implications de la fuite algorithmique de Yandex, les référenceurs doivent commencer à penser comme des chercheurs.

Imaginez si les chercheurs avaient la séquence complète d'ADN du cancer chez la souris. En utilisant le même raisonnement que les référenceurs utilisent pour rejeter la fuite de Yandex, diraient-ils que les souris ne sont pas des humains et que les séquences d'ADN sont inutiles ?

Bien sûr que non.

Il est temps pour les référenceurs d'intensifier et de réaliser que la fuite Yandex est plus qu'un simple ensemble de facteurs de classement. C'est l'occasion d'en apprendre davantage sur les algorithmes des moteurs de recherche de l'intérieur.

10 choses que nous apprenons de la fuite de la source Yandex

En résumé, voici dix choses à apprendre des facteurs de classement divulgués par Yandex :

#1.MatrixNet

MatrixNet a été annoncé pour la première fois en 2009. CatBoost le remplacerait en 2007.

Yandex le mentionne dans ses facteurs de classement.

Cependant, cela valide davantage l'affirmation selon laquelle il s'agit d'un référentiel obsolète.

À l'origine, MatrixNet a été introduit en tant que nouvel algorithme de base pour le SERP de Yandex. Il a pris en compte des milliers de facteurs de classement, attribuant des pondérations en fonction de la requête de recherche, de l'emplacement de l'utilisateur et de l'intention de recherche perçue.

Lancé six ans avant RankBrain de Google, MatrixNet de Yandex était considéré comme l'un des algorithmes de recherche les plus avancés.

D'autres algorithmes ont été construits sur MatrixNet. En 2016, Yandex a lancé l'algorithme Palekh qui utilisait des réseaux de neurones profonds pour générer des résultats plus précis, tandis que l'algorithme Pinet se concentrait sur la réduction des résultats faussement positifs.

L'algorithme Palekh pouvait traiter 150 pages Web à la fois, ce qui en faisait l'une des versions les plus puissantes jamais publiées. En 2017, Yandex a publié une version encore plus avancée appelée Korolyov update, qui traitait 200 000 pages à la fois et allait même jusqu'à prendre en compte la profondeur de la page.

#2.Facteurs au niveau de l'URL et de la page

Yandex prend en compte de nombreux facteurs au niveau de l'URL et de la page lors du classement des pages Web. Ceux-ci inclus:

La présence de chiffres dans l'URL
La présence et le nombre de barres obliques finales (les utilisez-vous de manière excessive ?)
La présence et le nombre de majuscules dans l'URL

Yandex tient également compte de l'âge de la page et de la date de la dernière mise à jour. Nous savons tous que Google valorise le contenu frais, et Yandex n'est pas différent, en particulier pour les requêtes de recherche liées aux actualités.

La fuite montre également que Yandex a utilisé des horodatages, non pas pour le classement mais pour la réorganisation. Cependant, ils ne l'utilisent plus.

Dans la version obsolète de l'algorithme, des mots clés étaient utilisés dans l'URL. Bien sûr, ils ne l'utilisent plus, mais vous pouvez toujours l'utiliser pour avoir une idée de la façon dont ils classent les pages.

#3.Profondeur d'analyse

Google a déclaré publiquement que la profondeur d'exploration n'est pas explicitement un facteur de classement. Cependant, Yandex a un morceau de code actif dans son algorithme qui tient compte de la profondeur d'exploration d'une page.

Par profondeur de crawl, nous entendons le nombre de clics nécessaires à un utilisateur pour accéder à une page spécifique à partir de la page d'accueil.

Les URL facilement accessibles depuis la page d'accueil seront mieux classées que celles nécessitant plus de clics. En effet, Yandex pense que les pages plus proches de la page d'accueil sont susceptibles d'être plus importantes et pertinentes pour l'utilisation.

A LIRE AUSSI Monétiser Instagram : 15 choses à savoir pour monétiser Instagram

Cela reflète la déclaration de John Muller selon laquelle Google donne un peu plus de poids aux pages plus proches de la page d'accueil.

Le code divulgué a également un jeton spécifique pour pondérer les pages orphelines, c'est-à-dire les pages qui ne sont liées à aucune autre page du site Web.

#4.Clic et CTR

Yandex a écrit un article de blog en 2011 expliquant comment ils utilisent les clics et les taux de clics comme facteurs de classement.

Ils ont également expliqué comment le référencement pourrait être tenté d'utiliser ce facteur de classement pour manipuler leur classement.

Les facteurs de clic spécifiques mis en évidence dans la fuite nous donnent un aperçu des éléments suivants :

Le ratio de clics que le lien reçoit par rapport au ratio de tous les clics dans le résultat de la recherche
Comme ci-dessus, mais ventilé par région
À quelle fréquence les utilisateurs cliquent-ils sur des pages à partir des résultats de recherche ?
D'après la fuite, nous pouvons voir que Yandex prend en compte les données de clic lors du classement des pages dans son moteur de recherche.

Plus une page reçoit de clics, plus son classement est élevé. C'est un facteur de classement indirect, mais il a un impact sur les classements.

#5.Manipulation des clics

La manipulation des clics est un sujet d'intérêt dans les cercles SEO depuis des années. Autrement connue sous le nom de "click-jacking", la pratique consiste à gonfler artificiellement les clics sur un lien pour améliorer son classement.

Il semble que Yandex en soit conscient et essaie activement de l'empêcher de se produire.

Ils ont un filtre (le filtre PF) qui analyse et identifie activement les schémas de clics suspects.

Il semble que si un lien a un schéma de clics non naturel, il sera pénalisé dans le classement.

#6.Comportement de l'utilisateur

La section sur le comportement de l'utilisateur de la fuite est particulièrement intéressante.

Des référenceurs peu scrupuleux essaient de déjouer le système depuis des années, de l'achat de liens au bourrage de mots clés.

Mais Yandex sévit contre toutes ces pratiques et essaie activement de récompenser les sites qui offrent véritablement une excellente expérience utilisateur.

Yandex utilise le filtre PF, le même filtre qu'il utilise pour la manipulation des clics, pour identifier les sites essayant délibérément de manipuler le comportement des utilisateurs.

Il examine le temps passé sur une page, le nombre de pages visitées et d'autres mesures pour décider si une page offre une valeur réelle.

#7.Temps de séjour

Le temps d'attente est le temps qu'un utilisateur passe sur une page.

Dans l'un de leurs 102 facteurs de classement, Yandex a cette balise "TG_USERFEAT_SEARCH_DWELL_TIME".

Ils font également référence à l'appareil, à la durée d'utilisation et au temps de séjour moyen.

Ils ont déprécié environ 39 de ces facteurs, mais le temps de séjour reste un facteur de classement dans leur algorithme.

Le terme Dwell Time a été utilisé pour la première fois par Bing (dans son article de blog de 2011).

Cependant, Google a déclaré qu'il n'utilisait pas le temps d'attente ou des signaux d'interaction similaires comme facteur de classement.

#8.YMYL

YMYL, ou Your Money, Your Life, est un terme utilisé pour décrire les sites Web contenant des informations relatives aux transactions d'argent, de santé et de sécurité.

La fuite touche à des facteurs de classement spécifiques pour les sites Web médicaux, financiers et juridiques.

Rien de nouveau - en 2019, lors de la conférence Yandex Webmaster, ils ont annoncé la Proxima Search Quality Metric.

Alors, comment devriez-vous explorer la fuite Yandex ?

So, How Should you Go About Exploring the Yandex Leak? | MediaOne Marketing Singapore

Penser aux facteurs de classement Yandex comme base des hypothèses de test SEO est la meilleure façon de traiter cette fuite.

Bien que vous ne puissiez pas isoler les facteurs de classement individuels, en particulier ceux à faible coefficient, vous pouvez comprendre les tendances générales de leur algorithme et essayer de les appliquer à votre propre site Web.

Bien sûr, ce ne sera pas une science parfaite, mais au moins vous aurez quelque chose avec quoi travailler lorsque vous testerez de nouvelles stratégies et tactiques de référencement. Testez, mesurez et ajustez jusqu'à ce que vous trouviez une formule gagnante.

Par exemple, nous ne regardons jamais l'âge des liens lors de l'analyse des profils de liens, mais Yandex le fait. Par conséquent, il est très logique pour nous de commencer à examiner l'âge des liens et de l'utiliser comme facteur lors de la prise de décisions concernant les liens.

Ce n'est pas parce que Yandex a 17854 facteurs de classement que vous devez tous les passer en revue. Regardez la situation dans son ensemble et trouvez des modèles.

Même si les moteurs de recherche devaient changer et adopter le modèle Chat GPT-like, n'auriez-vous pas toujours aimé savoir quelle était la formule gagnante toutes ces années ?

Quelques Récapitulatifs

Il est clair que Yandex est allé au-delà des tactiques de référencement de base et exploite sa richesse de données pour récompenser les sites Web qui offrent une excellente expérience utilisateur.

La fuite met en lumière le fonctionnement interne de l'algorithme de Yandex, et il semble que les référenceurs aient peut-être négligé certains facteurs de classement importants.