
John Mueller de Google a répondu à une question sur LLMS.TXT, une norme proposée pour afficher le contenu du site Web aux agents et des robots d’IA, en minimisant son utilité et en la comparant à la balise Meta Meta Meta inutile, confirmant l’expérience des autres qui l’ont utilisé.
Llms.txt
LLMS.TXT a été comparé à AS A Robots.txt pour les modèles de grande langue, mais c’est 100% incorrect. L’objectif principal d’un robots.txt est de contrôler comment les bots rampent sur un site Web. La proposition pour LLMS.TXT ne consiste pas à contrôler les bots. Ce serait superflu car une norme pour cela existe déjà avec Robots.txt.
La proposition pour LLMS.TXT consiste généralement à afficher le contenu de LLMS avec un fichier texte qui utilise le format Markdown afin qu’ils puissent consommer uniquement le contenu principal d’une page Web, complètement dépourvu de publicité et de navigation sur le site. Le langage Markdown est un format lisible par l’homme et la machine qui indique les titres avec le signe de livre (#) et les listes avec le signe moins (-). LLMS.TXT fait quelques autres choses similaires à cette fonctionnalité et c’est tout ce qu’il s’agit.
Ce que LLMS.TXT est:
- Llms.txt n’est pas un moyen de contrôler les bots AI.
- LLMS.TXT est un moyen d’afficher le contenu principal des bots AI.
- Llms.txt n’est qu’une proposition et non une norme largement utilisée et acceptée.
Cette dernière partie est importante car elle concerne ce que John Mueller de Google a dit:
Llms.txt est comparable à la balise de méta de mots clés
Quelqu’un a commencé une discussion sur Reddit sur llms.txt pour se demander si quelqu’un d’autre a partagé son expérience que les robots AI ne vérifiaient pas leurs fichiers LLMS.TXT.
Ils ont écrit:
«J’ai soumis à Root un fichier LLM.TXT de mon blog plus tôt ce mois-ci, mais je ne vois pas encore d’impact sur mes journaux de randonnée. Juste curieux de savoir si quelqu’un avait un système de suivi en place, E ou simplement si vous avez ramassé quelque chose en suivant la mise en œuvre.
Si vous ne l’avez pas encore implémenté, je suis curieux d’entendre vos réflexions à ce sujet. »
Une personne de cette discussion a partagé qu’elle héberge plus de 20 000 domaines et qu’aucun agent ou robot d’IA ne télécharge les fichiers llms.txt, seuls des robots de niche comme un de Builtwith saisit ces fichiers.
Le commentateur a écrit:
«Actuellement, hébergez environ 20 000 domaines. Peut confirmer qu’aucun robots ne les saisit vraiment de certains agents utilisateur de niche…»
John Mueller a répondu:
« Afaik Aucun des services d’IA n’a dit qu’ils utilisent llms.txt (et vous pouvez dire quand vous regardez vos journaux de serveur qu’ils ne le vérifient même pas). Pour moi, c’est comparable à la méta-balise des mots clés – c’est ce que le propriétaire prétend que son site est sur le site … est-ce que le site est vraiment? »
Il a raison, aucun des principaux services d’IA, Anthropic, OpenAI et Google, n’a annoncé le support de la norme LLMS.TXT proposée. Donc, si aucun d’entre eux ne l’utilise réellement, à quoi ça sert?
Mueller soulève également le fait qu’un fichier llms.txt est redondant, car pourquoi utiliser ce fichier de marquage si le contenu d’origine (et les données structurées) ont déjà été téléchargés? Un bot qui utilise le llms.txt devra vérifier l’autre contenu pour s’assurer qu’il n’est pas du spam, alors pourquoi s’embêter?
Enfin, que doit empêcher un éditeur ou un référencement de montrer un ensemble de contenu dans LLMS.txt pour spam Ai agents et un autre ensemble de contenu pour les utilisateurs et les moteurs de recherche? Il est trop facile de générer du spam de cette façon, essentiellement en train de masquer les LLM.
À cet égard, il est très similaire à la balise Meta de mots clés qu’aucun moteur de recherche n’utilise, car il serait trop sommaire pour faire confiance à un site qu’il s’agit vraiment de ces mots clés et de ces moteurs de recherche sont meilleurs et plus sophistiqués de nos jours sur l’analyse du contenu pour comprendre de quoi il s’agit.
Article de suivi sur LinkedIn
La personne qui a lancé le post Reddit, Simone de Palma (profil LinkedIn) a créé un article sur LinkedIn pour discuter des fichiers LLMS.TXT. De Palma a partagé ses idées et ses opinions sur LLMS.TXT en fonction de son expérience, expliquant comment les LLMS.TXT peuvent conduire à une mauvaise expérience utilisateur.
Il a écrit:
«Les fichiers LLMS.TXT semblent être ignorés par les services Hashtag # AI et offrent peu ou pas de réel avantage aux propriétaires de sites Web.
… De plus, quelqu’un soutient que les fichiers LLM.TXx peuvent conduire à de mauvaises expériences utilisateur, car ils ne sont pas en train de relier aux URL d’origine. Toutes les citations obtenues par votre site Web peuvent diriger les utilisateurs vers un mur de texte incroyable au lieu de pages Web appropriées – alors encore une fois à quel point?
D’autres dans cette discussion ont convenu. Un répondant a partagé qu’il y avait peu de visites dans le fichier et a estimé que le temps et l’attention étaient mieux concentrés ailleurs.
Il a partagé:
« D’accord. D’après les tests que je effectue, il y a peu de visites et aucun avantage jusqu’à présent (mon idée est qu’elle pourrait devenir utile si elle est exploitée différemment parce que de cette manière, vous pouvez également risquer de confondre les différents robots; je laisse le test » uniquement « sur mon site pour avoir d’autres données à penser). Au moment, il est certainement plus productif de concentrer vos efforts sur des données structurées effectuées, des robots.
Image en vedette par Shutterstock / Jemastock