Правильне налаштування robots.txt

В файлі robots.tx. мають бути:

Закриті від індексації пошукових ботів непотрібні і службові розділи. Наприклад, результати пошуку по сайту, сторінки реєстрації і авторизації, кеш сторінок, логи, версії для друку і т. д.
Задані окремо User-Agent для різних пошукових систем.

Більш детальну інструкцію по побудові файла robots.txt можна знайти тут: Google.

Директива	Що означає
User-agent *	Вказує на робота (пошукової системи), для якого діють перечисленні в robots.txt правила.
Disallow	Забороняє індексування розділів або окремих сторінок сайта.
Sitemap	Вказує шлях до файлу Sitemap, який розміщений на сайте.
Clean-param	Вказує роботу, що URL сторінки містить параметри (наприклад, UTM-мітки), які не потрібно враховувати при індексуванні.
Allow	Дозволяє індексування розділів або окремих сторінок сайта.
Crawl-delay	Задає роботу мінімальный період часу (в секундах) між закінченням завантаження однієї сторінки і початком завантаження наступної.

Робот враховує регістр у написанні підрядків (ім’я або шлях до файлу, ім’я робота) та не враховує регістр у назвах директив.
Замітка

Приклад robots.txt для сайта на WordPress

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-comments
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/cache
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */trackback
Disallow: */feed
Disallow: /cgi-bin
Disallow: /tmp/
Disallow: *?s=
 
Host: site.com
Sitemap: http://site.com/sitemap.xml

Сервіс для аналізу файла robots.txt:
https://www.websiteplanet.com