Sitemap.xml часто воспринимают как простой список страниц, который достаточно один раз создать и отправить в Яндекс Вебмастер. На практике карта сайта быстро устаревает: меняются URL, появляются редиректы, закрываются разделы, обновляются canonical и правила robots.txt.
В sitemap.xml должны оставаться только важные индексируемые URL со статусом 200, корректным canonical, без noindex, лишних редиректов и технического мусора. Отдельно стоит проверить lastmod, размер файла и связь с robots.txt.
Этот чеклист подходит для ручной проверки небольшой карты сайта и для первичного контроля после выгрузки из системы управления сайтом, генератора или краулера. Его цель не в том, чтобы обещать индексацию, а в том, чтобы убрать явные технические противоречия до отправки файла.
Что считается хорошей картой сайта
Хороший sitemap.xml не обязан содержать все страницы сайта. Он должен содержать те URL, которые вы действительно хотите показать поисковым системам как актуальные и доступные для обхода.
- В файле есть только канонические и важные страницы.
- Основные URL открываются со статусом 200.
- В карту сайта не попали страницы корзины, личного кабинета, поиска и служебных разделов.
- URL не закрыты через noindex, robots.txt или другие ограничения индексации.
- Файл доступен по стабильному адресу и не требует авторизации.
- Карта сайта указана в robots.txt или легко находится по стандартному адресу.
Какие URL должны попасть в sitemap.xml
В sitemap.xml стоит включать страницы, которые должны участвовать в поиске: главную, категории, карточки товаров, услуги, статьи, посадочные страницы и важные информационные разделы. Если страница не нужна в поиске, её наличие в карте сайта обычно только мешает диагностике.
- Оставляйте страницы, которые открываются пользователям и имеют самостоятельную ценность.
- Используйте чистые URL без случайных параметров сортировки и фильтрации.
- Разделяйте большие карты сайта по типам страниц, если проект крупный.
- Проверяйте, что важные новые страницы действительно появились в sitemap.xml.
- Не добавляйте внутренний поиск, корзину, авторизацию и личный кабинет.
- Не оставляйте дубль страницы с параметрами, если основная версия уже есть в карте.
- Не включайте тестовые, временные и закрытые от индексации URL.
- Не смешивайте в одной карте сайта актуальные страницы и технический мусор.
Почему в карте сайта должны быть URL со статусом 200
Если URL из sitemap.xml отдаёт 404, 500, 301 или 302, поисковому роботу приходится тратить обход на лишнюю проверку. Для пользователя это не всегда заметно, но для карты сайта это сигнал, что файл устарел или собран без контроля.
URL со статусами 404, 500 и длинными цепочками редиректов лучше не отправлять в карте сайта. Их нужно заменить на актуальные адреса или удалить из файла.
| Что найдено | Что это значит | Что сделать |
|---|---|---|
| 200 | Страница доступна | Оставить, если она индексируемая и каноническая |
| 301 или 302 | URL перенаправляет | Заменить на конечный адрес со статусом 200 |
| 404 | Страница не найдена | Удалить из sitemap.xml или восстановить страницу |
| 500 | Ошибка сервера | Исправить проблему и перепроверить URL |
Как проверить canonical, noindex и robots.txt
Sitemap.xml не должен спорить с другими сигналами индексации. Если страница есть в карте сайта, но закрыта от индексации или указывает canonical на другой URL, поисковая система видит противоречие: файл предлагает страницу к обходу, а сама страница просит учитывать другой адрес или не индексировать её.
- Canonical на странице указывает на тот же URL или на корректную основную версию.
- Страница не закрыта через meta robots noindex.
- Для URL нет запрета в robots.txt, если страницу нужно показывать в поиске.
- В карту сайта не попали страницы пагинации, фильтров и сортировок без отдельной SEO-задачи.
- HTTP и HTTPS версии не смешаны в одном файле.
- www и non-www версии не дублируются.
Если URL добавлен в sitemap.xml, поисковая система обязана его проиндексировать.
Sitemap.xml помогает обнаружить страницы, но не отменяет качество контента, доступность URL, canonical, noindex и другие сигналы.
Как оценить lastmod и размер файла
Поле lastmod полезно, когда оно показывает реальное существенное обновление страницы. Если каждый URL получает сегодняшнюю дату при любой генерации файла, этот сигнал становится менее информативным для диагностики.
- Проверьте, что файл не превышает лимиты по количеству URL и размеру.
- Для крупного сайта используйте несколько sitemap.xml и индекс sitemap.
- Не обновляйте lastmod без реального изменения страницы.
- Сохраняйте единый формат URL: протокол, домен, слэш в конце, регистр.
- Проверяйте XML-синтаксис после ручного редактирования.
- Не добавляйте в файл URL, которые требуют входа в аккаунт.
Пошаговая проверка перед отправкой
- Откройте карту сайта в браузере и убедитесь, что файл доступен без авторизации.
- Проверьте структуру sitemap.xml и найдите лишние разделы, параметры и дубли.
- Выберите несколько важных URL и проверьте HTTP-статус, canonical и ограничения индексации.
- Удалите из файла редиректы, ошибки, закрытые страницы и технический мусор.
- Проверьте lastmod и убедитесь, что даты не проставлены формально для всех страниц.
- После исправлений повторно откройте файл и только потом отправляйте его в панель вебмастера.
Вставьте URL карты сайта или содержимое файла, чтобы увидеть структуру, заметить лишние URL и подготовить sitemap.xml к отправке.
Частые ошибки в sitemap.xml
Удалите несуществующие URL или восстановите страницы, если они важны.
Замените такие URL на актуальные страницы со статусом 200.
Исключите закрытые URL, если вы не планируете возвращать их в индекс.
Оставьте в sitemap.xml каноническую версию или исправьте canonical на странице.
Используйте реальные даты существенного обновления или не указывайте lastmod там, где он недостоверен.
Какие инструменты использовать вместе с проверкой sitemap.xml
После первичной проверки карты сайта полезно пройти соседние технические проверки. Они помогают понять, почему конкретные URL не стоит оставлять в sitemap.xml или почему файл нужно пересобрать.
Перед отправкой sitemap.xml проверьте не только XML-синтаксис, но и смысл файла: в нём должны быть актуальные индексируемые URL со статусом 200, без редиректов, 404, noindex и конфликтов с canonical или robots.txt. Такая проверка не гарантирует индексацию, но помогает убрать технические противоречия заранее.