Il REP (Robot Exclusion Protocol) di Google, meglio noto come robots.txt, è una delle componenti chiave per il funzionamento del motore di ricerca, ben conosciuto da tutti coloro che hanno mai avuto a che fare con la creazione o la gestione di un sito Web. Diventerà uno standard o almeno questa è la volontà del gruppo californiano: l’annuncio è arrivato sotto forma di post condiviso dal colosso di Mountain View sul blog ufficiale dedicato ai webmaster.

La decisione giunge dopo 25 anni di onorata attività della componente. Creata nel 1994 dall’olandese Martijn Koster, è stata posta nelle mani dei webmaster per consentir loro di definire quali pagine e risorse non indicizzare al passaggio di crawler come Googlebot, attraverso la sua collocazione nella directory root. Sfruttandola è ad esempio possibile evitare l’inserimento nel database del motore di ricerca di contenuti che non devono essere raggiunti dai navigatori tramite SERP (pagine dei risultati). Queste le informazioni riportate sulla pagina del supporto ufficiale.

But there are also lots of typos in robots.txt files. Most people miss colons in the rules, and some misspell them. What should crawlers do with a rule named "Dis Allow"? pic.twitter.com/nZEIyPYI9R

— Google Webmasters (@googlewmc) July 1, 2019