Robots.txt кажется маленьким техническим файлом, но перед индексацией сайта он может решить судьбу целых разделов. Ошибка в одном правиле способна закрыть от обхода каталог, блог, карточки товаров или важные посадочные страницы.
Проверьте, что важные страницы не закрыты через Disallow, служебные и тестовые разделы закрыты осознанно, строка Sitemap указана корректно, а сам файл доступен по адресу /robots.txt и отдаёт нормальный ответ сервера.
Цель проверки не в том, чтобы закрыть как можно больше адресов. Хороший robots.txt помогает управлять обходом, но не должен конфликтовать с задачей индексации, картой сайта, canonical и настройками сервера.
Какие задачи решает robots.txt
Robots.txt сообщает поисковым роботам, какие части сайта можно обходить, а какие лучше не сканировать. Это не замена защите данных и не гарантия индексации, а техническая подсказка для обхода.
- Файл доступен по адресу /robots.txt.
- Важные разделы сайта не закрыты через Disallow.
- Служебные разделы закрыты осознанно, а не случайной широкой маской.
- Указана актуальная строка Sitemap.
- Нет временного запрета на весь сайт, оставленного после разработки.
- Правила проверены для основного домена, протокола и зеркала сайта.
Как не закрыть важные страницы через Disallow
Disallow запрещает обход указанного пути. Проблема начинается, когда правило получается слишком широким: оно должно было закрыть служебный раздел, но задевает каталог, статьи или посадочные страницы.
Правило Disallow: / для основного поискового робота закрывает обход всего сайта. Перед запуском проекта обязательно проверьте, не осталось ли такое правило после разработки.
User-agent: *
Disallow: /Такое правило запрещает обход всего сайта для всех роботов. Его используют временно на этапе разработки, но перед индексацией оно должно быть удалено или заменено на точные правила.
Когда использовать Allow
Allow полезен, когда нужно разрешить более точный путь внутри закрытого раздела. Например, можно закрыть техническую папку, но оставить доступ к важному файлу или подкаталогу. Главное — не использовать Allow как украшение, если в нём нет реальной необходимости.
User-agent: *
Disallow: /private/
Allow: /private/public-guide/Общее правило закрывает раздел /private/, а более точное правило разрешает обход нужного подраздела. Перед внедрением важно проверить, действительно ли такой сценарий нужен.
Что закрывать перед индексацией
Закрывать стоит не всё подряд, а только разделы, которые не должны участвовать в обходе: служебные страницы, результаты внутреннего поиска, технические параметры, тестовые директории и временные файлы. Для приватных данных robots.txt недостаточен, потому что файл публичный и не защищает доступ.
- Закрывайте тестовые разделы, если они доступны на рабочем домене.
- Проверяйте правила на конкретных важных URL.
- Держите правила короткими и понятными.
- Добавляйте Sitemap, чтобы связать robots.txt с картой сайта.
- Не закрывайте папки со стилями, скриптами и изображениями без причины.
- Не используйте слишком широкие маски, если можно закрыть точный путь.
- Не храните в robots.txt секретные адреса как способ защиты.
- Не оставляйте временные правила после запуска сайта.
Как добавить Sitemap в robots.txt
Строка Sitemap помогает поисковым роботам найти карту сайта. Особенно это полезно, если на сайте несколько карт, они лежат в нестандартном месте или проект недавно переехал на новый домен.
Sitemap: https://example.com/sitemap.xmlВ robots.txt лучше указывать полный абсолютный адрес карты сайта. Если карт несколько, можно добавить несколько строк Sitemap.
Подготовьте правила обхода, добавьте Sitemap и получите аккуратную основу robots.txt для дальнейшей проверки на сайте.
Как проверить зеркала и тестовые версии сайта
Перед индексацией проверьте не только основной домен, но и возможные зеркала: версии с www и без www, HTTP и HTTPS, тестовые поддомены, временные адреса и старые окружения. Часто robots.txt настроен на одном варианте, а поисковый робот видит другой.
- Основной домен отдаёт актуальный robots.txt.
- HTTP-версия корректно перенаправляет на HTTPS или не создаёт отдельную логику обхода.
- www и non-www версии не конфликтуют между собой.
- Тестовые поддомены закрыты от обхода и не попали в sitemap.xml.
- Старые временные адреса не открывают копию сайта для индексации.
- Строка Sitemap ведёт на карту сайта основного зеркала.
Частые ошибки в robots.txt
Удалите общий запрет и оставьте только точные ограничения для служебных разделов.
Проверьте, не мешают ли правила корректному отображению и анализу страниц.
Добавьте абсолютный адрес актуальной карты сайта.
Закройте тестовое окружение технически и проверьте, что оно не попало в карту сайта.
Замените широкое правило на более точный путь и проверьте важные URL вручную.
Пошаговый чеклист перед отправкой сайта на индексацию
- Откройте /robots.txt на основном домене и проверьте, что файл доступен.
- Найдите все правила Disallow и оцените, какие разделы они закрывают.
- Проверьте, не закрыты ли категории, услуги, статьи, карточки товаров и другие важные страницы.
- Убедитесь, что строка Sitemap ведёт на актуальную карту сайта.
- Проверьте тестовые поддомены, HTTP/HTTPS и www/non-www версии.
- После правок проверьте несколько важных URL через технические инструменты.
Что проверить после robots.txt
Robots.txt — только один слой технической проверки. После него полезно проверить карту сайта, базовую SEO-картину страницы и ответ сервера, чтобы убедиться, что сигналы не противоречат друг другу.
Перед индексацией сайта robots.txt нужно проверять не по памяти, а по конкретным URL и правилам. Убедитесь, что важные страницы открыты для обхода, служебные разделы закрыты осознанно, строка Sitemap ведёт на актуальную карту сайта, а тестовые версии не доступны поисковым роботам.