
Un témoignage expurgé d’un ingénieur de Google publié en ligne par le ministère de la Justice américain offre un aperçu des systèmes de classement de Google, offrant une idée des scores de qualité de Google et introduit un signal de popularité mystérieux qui utilise des données chromées.
Le document offre une vue de haut niveau et très générale des signaux de classement, fournissant une idée de ce que font les algorithmes mais pas des détails.
Signaux fabriqués à la main
Par exemple, il commence par une section sur la «fabrication de mains» des signaux qui décrit le processus général de prise de données des évaluateurs de qualité, des clics, et ainsi de suite et de l’application de formules mathématiques et statistiques pour générer un score de classement à partir de trois types de signaux. Les moyens artisanaux moyens des algorithmes à l’échelle qui sont réglés par des ingénieurs de recherche. Cela ne signifie pas qu’ils classent manuellement les sites Web.
Signaux ABC de Google
Le document DOJ répertorie trois types de signaux appelés signaux ABC et correspond à ce qui suit:
- A – ancres (pages reliant les pages cibles),
- B – corps (termes de requête de recherche dans le document),
- C – Clicks (temps de séjour de l’utilisateur avant de revenir au SERP)
La déclaration sur les signaux ABC est une généralisation d’une partie du processus de classement. Le classement des résultats de recherche est beaucoup plus complexe et implique des centaines, voire des milliers d’algorithmes supplémentaires, à chaque étape du processus de classement, de l’indexation, de l’analyse des liens, des processus anti-spam, de la personnalisation, du reconstitution et d’autres processus. Par exemple, Liz Reid a discuté des systèmes de base de base dans le cadre de l’algorithme de classement et Martin Splitt a discuté des annotations dans le cadre de la compréhension des pages Web.
C’est ce que dit le document sur les signaux ABC:
«Les signaux ABC sont les éléments clés de la topique (ou un score de base), qui est la détermination de Google sur la façon dont le document est pertinent pour la requête.
T * (topique) combine efficacement (au moins) ces trois signaux d’une manière relativement arborée par la main. Google utilise pour juger de la pertinence du document en fonction des termes de requête. »
Le document offre une idée de la complexité du classement des pages Web:
«Le développement du développement (en particulier la topique) implique de résoudre de nombreux problèmes mathématiques complexes. Pour la topique, il pourrait y avoir une équipe d’ingénieurs travaillant en continu sur ces problèmes difficiles dans un projet donné.
La raison pour laquelle la grande majorité des signaux sont fabriqués à la main est que si quelque chose se casse, Google sait quoi corriger. Google veut que leurs signaux soient entièrement transparents afin qu’ils puissent les déposer et les améliorer. »
Le document compare leur approche fabriquée à la main à l’approche automatisée de Microsoft, disant que lorsque quelque chose se casse à Bing, il est beaucoup plus difficile de dépanner que avec l’approche de Google.
Interaction entre la qualité de la page et la pertinence
Un point intéressant révélé par l’ingénieur de recherche est que la qualité de la page est indépendante de la requête. Si une page est déterminée comme étant de haute qualité, digne de confiance, elle est considérée comme digne de confiance dans toutes les requêtes connexes, ce qui est ce qui signifie par le mot statique, il n’est pas recalculé dynamiquement pour chaque requête. Cependant, il existe des signaux liés à la pertinence dans la requête qui peuvent être utilisés pour calculer le classement final, ce qui montre comment la pertinence joue un rôle décisif dans la détermination de ce qui est classé.
C’est ce qu’ils ont dit:
« Qualité
Généralement statique sur plusieurs requêtes et non connecté à une requête spécifique.Cependant, dans certains cas, le signal de qualité intègre des informations de la requête en plus du signal statique. Par exemple, un site peut avoir des informations de haute qualité mais générales, de sorte qu’une requête interprétée comme recherchant des informations très étroites / techniques peut être utilisée pour diriger vers un site de qualité plus technique.
Q * (qualité de la page (c’est-à-dire, la notion de fiabilité)) est incroyablement importante. Si les concurrents voient les journaux, ils ont une notion de «autorité» pour un site donné.
Le score de qualité est extrêmement important même aujourd’hui. La qualité des pages est quelque chose que les gens se plaignent le plus… »
L’IA donne un motif de plaintes contre Google
L’ingénieur déclare que les gens se plaignent de la qualité, mais dit également que l’IA aggrave la situation en aggravant les choses.
Il dit à propos de la qualité des pages:
«De nos jours, les gens se plaignent toujours de la qualité et l’IA aggrave.
C’était et continue d’être beaucoup de travail mais pourrait être facilement inversé parce que Q est largement statique et largement lié au site plutôt qu’à la requête. »
edeeprank – un moyen de comprendre les classements LLM
Le googler répertorie d’autres signaux de classement, dont un appelé eDEEPRANK qui est un système basé sur LLM qui utilise Bert, qui est un modèle lié à la langue.
Il explique:
« Edeeprank est un système LLM qui utilise Bert, Transformers. Essentiellement, Edeeprank essaie de prendre des signaux basés sur LLM et de les décomposer en composants pour les rendre plus transparents. »
Cette partie sur la décomposition des signaux LLM en composants semble être une référence pour rendre les signaux de classement basés sur LLM plus transparents afin que les ingénieurs de recherche puissent comprendre pourquoi le LLM classe quelque chose.
Pagerank lié aux algorithmes de classement à distance
PageRank est l’innovation de classement originale de Google et il a depuis été mis à jour. J’ai écrit sur ce genre d’algorithme il y a six ans. Les algorithmes de distance de liaison calculent la distance des sites Web faisant autorité pour un sujet donné (appelé sites de semences) à d’autres sites Web dans le même sujet. Ces algorithmes commencent par un ensemble de semences de sites faisant autorité dans un sujet donné et les sites qui sont plus éloignés de leur site de semences respectif sont déterminés comme dignes de confiance. Les sites qui sont plus proches des ensembles de semences sont plus susceptibles d’être plus autoritaires et dignes de confiance.
C’est ce que le googler a dit à propos de PageRank:
« Pagerank. Il s’agit d’un seul signal relatif à la distance d’une bonne source connue, et il est utilisé comme entrée au score de qualité. »
Lire ce type d’algorithme de classement des liens: algorithmes de classement de distance de liaison
Signal de popularité à base de chrome cryptique
Il y a un autre signal dont le nom est expurgé qui est lié à la popularité.
Voici la description cryptique:
« [redacted] (popularité) Signal qui utilise des données chromées. »
Une affirmation plausible peut être faite selon laquelle cela confirme que la fuite de l’API chromée concerne les facteurs de classement réels. Cependant, de nombreux SEO, moi y compris, croient que ces API sont des outils orientés vers les développeurs utilisés par Chrome pour afficher des métriques de performances comme Core Web Vitals dans l’interface Chrome Dev Tools.
Je soupçonne qu’il s’agit d’une référence à un signal de popularité que nous ne connaissons peut-être pas.
L’ingénieur Google fait référence à une autre fuite de documents qui font référence aux «composants réels du système de classement de Google», mais qu’ils n’ont pas suffisamment d’informations pour l’ingénierie inverse de l’algorithme.
Ils expliquent:
« Il y avait une fuite de documents Google qui ont nommé certains composants du système de classement de Google, mais les documents ne sont pas des spécificités des courbes et des seuils.
Par exemple
Les documents seuls ne vous donnent pas suffisamment de détails pour le comprendre, mais les données le font probablement. »
Emporter
Le document nouvellement publié résume un dépôt américain du ministère de la Justice d’un ingénieur Google qui offre un aperçu général des parties des systèmes de classement de recherche de Google. Il traite de la conception du signal fabriqué à la main, du rôle des scores de qualité de page statique et d’un mystérieux signal de popularité dérivé des données chromées.
Il fournit un aperçu rare de la façon dont des signaux comme la topique, la fiabilité, le comportement de clic et la transparence basée sur LLM sont conçus et offre une perspective différente sur la façon dont Google classe les sites Web.
Image en vedette par Shutterstock / Fran_kie