В файлі robots.tx. мають бути:
- Закриті від індексації пошукових ботів непотрібні і службові розділи. Наприклад, результати пошуку по сайту, сторінки реєстрації і авторизації, кеш сторінок, логи, версії для друку і т. д.
- Задані окремо User-Agent для різних пошукових систем.
Більш детальну інструкцію по побудові файла robots.txt можна знайти тут: Google.
| Директива | Що означає |
| User-agent * | Вказує на робота (пошукової системи), для якого діють перечисленні в robots.txt правила. |
| Disallow | Забороняє індексування розділів або окремих сторінок сайта. |
| Sitemap | Вказує шлях до файлу Sitemap, який розміщений на сайте. |
| Clean-param | Вказує роботу, що URL сторінки містить параметри (наприклад, UTM-мітки), які не потрібно враховувати при індексуванні. |
| Allow | Дозволяє індексування розділів або окремих сторінок сайта. |
| Crawl-delay | Задає роботу мінімальный період часу (в секундах) між закінченням завантаження однієї сторінки і початком завантаження наступної. |
Робот враховує регістр у написанні підрядків (ім’я або шлях до файлу, ім’я робота) та не враховує регістр у назвах директив.
Замітка
Приклад robots.txt для сайта на WordPress
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-comments
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/cache
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */trackback
Disallow: */feed
Disallow: /cgi-bin
Disallow: /tmp/
Disallow: *?s=
Host: site.com
Sitemap: http://site.com/sitemap.xml
Сервіс для аналізу файла robots.txt:
https://www.websiteplanet.com