Заголовок HTTP X-Robots-Tag: что такое, как использовать и проверить

X-Robots-Tag — это специальный HTTP-заголовок, который позволяет вебмастерам управлять индексацией и обработкой веб-страниц поисковыми системами. Он является частью протокола Robots Exclusion Protocol и предоставляет больше возможностей по сравнению с традиционным мета-тегом robots, который размещается непосредственно в HTML-коде страницы. Основное преимущество X-Robots-Tag заключается в том, что он может применяться к различным типам контента, включая изображения, PDF-файлы и другие не HTML-документы.

Как работает X-Robots-Tag?

X-Robots-Tag передается сервером в заголовках HTTP, когда браузер или поисковый бот делает запрос на страницу. Этот заголовок указывает, как поисковые системы должны обрабатывать содержимое. Например, можно запретить индексацию страницы, позволив при этом ее кэширование, или указать, что страница не должна отображаться в результатах поиска.

Примеры значений, которые могут быть указаны в X-Robots-Tag:

noindex — запрещает индексацию страницы.
nofollow — запрещает переход по ссылкам на странице.
noarchive — запрещает создание кэша страницы в поисковых системах.
nosnippet — запрещает создание сниппетов (описаний) в результатах поиска.

Примеры использования

Запрет индексации PDF-документов:
Если у вас есть PDF-файл, который вы не хотите, чтобы поисковые системы индексировали, вы можете добавить заголовок X-Robots-Tag в ответ сервера: X-Robots-Tag: noindex
Управление кэшированием:
Если вы хотите, чтобы поисковые системы не кэшировали определенную страницу, можно использовать: X-Robots-Tag: noarchive
Комбинированные инструкции:
Можно комбинировать несколько параметров в одном заголовке: X-Robots-Tag: noindex, nofollow

Почему это важно?

Использование X-Robots-Tag — это мощный способ управления видимостью вашего контента в интернете. Это особенно полезно для сайтов с большим количеством контента, который не всегда должен быть доступен для индексации. Например, можно исключить страницы с дублирующимся контентом, страницы с конфиденциальной информацией или временные страницы, которые не предназначены для поисковых систем.

Кроме того, X-Robots-Tag упрощает управление индексацией для различных типов файлов, что делает его более гибким инструментом по сравнению с мета-тегами. Он особенно полезен для сайтов, которые используют много различных форматов файлов и хотят иметь полный контроль над тем, как эти файлы обрабатываются поисковыми системами.

В чем разница запрета на индексацию Robots.txt, Meta Robots и X-Robots-Tag

Все эти три способа предназначены для того, чтобы давать поисковым системам указания по индексации вашего сайта. Но все же они различаются. Разберемся, в каких случаях предпочтительнее пользоваться тем или иным способом.

Текстовый файл robots.txt

Стандартный и общепринятый метод управления индексацией сайта. Яндекс в основном четко понимает все указания, прописанные в файле и следует им. Но вот Google в этом плане более самостоятелен. Зачастую этот поисковик игнорирует указания файла robots.txt и в индекс попадают нежелательные страницы сайта. Использование этого способа очень удобно и просто, но не совсем надежно. Инструкции в файле robots.txt носят рекомендательный характер и могут игнорироваться поисковыми системами. Они управляют сканированием сайта, а не его индексацией.

Специальный тег Meta Robots

Смысл данного метода тот же — дать указание поисковику об индексации контента. Тег прописывается между <head> и </head> в коде страницы сайта. Он может не только закрывать от индексации страницы, но и запрещать поисковым роботам переходить по внутренним и внешним ссылкам, сохранять документ в кэше.

Но у данного метода есть и недостатки: он не может регулировать взаимодействия поисковых систем с медиаконтентом. Ведь данный метатег невозможно прописать к картинке или в видео.

Заголовок X-Robots-Tag

Наконец, третий способ управления поисковыми роботами, посещающими сайт — заголовок X-Robots-Tag. Данный метод считается самым надежным, так как его действие распространяется абсолютно на все виды контента, присутствующего на сайте.

Данный элемент устанавливается на уровне заголовков сервера, поэтому указания, прописанные в нем, имеют самые приоритетные правила.

Директивы X-Robots-Tag

Заголовок X-Robots-Tag использует те же самые директивы, что и метатег Meta Robots.

Рассмотрим основные из них, которые доступны в Google:

all — ограничения на индексацию и выдачу контента отсутствуют. Данное правило будет использовано по умолчанию, если не прописаны другие указания. Оно никак не влияет на деятельность поисковых роботов.
noindex — директива для запрета отображения документа. Также не будет отображаться ссылка на архивную версию страницы в поисковой выдаче.
nofollow — запрет на переходы по ссылкам, содержащимся в теле страницы.
none — директива, использование которой равнозначно использованию директив noindex и nofollow одновременно.
noarchive — запрет на отображение в поисковой выдачи ссылки на архивную версию документа, сохраненную в кэше.
nosnippet — запрет на отображение description (описания) документа на страницах поисковой выдачи.
noodp — запрет на использование метаданных, присутствующих в проекте Open Directory, для этого документа.
notranslate — в результатах поиска не будет отображаться окно с предложением перевода этого документа.
noimageindex — запрет на индексацию изображений, содержащихся на странице.
unavailable_after: [RFC-850 date/time] — запрет на отображение документа в поисковой выдаче по наступлению указанных даты и времени. Календарные и временные значения указываются в формате RFC-850.

Яндекс для X-Robots-Tag понимает только noindex, nofollow, none, noarchive. Более подробно со всеми директивами Яндекса можно ознакомиться в справке Вебмастера.

Поддерживаемые Яндексом директивы для X-Robots-Tag

Как применять X-Robots-Tag

Использовать заголовок X-Robots-Tag можно двумя способами:

С помощью настройки файла конфигурации сервера .htaccess.
Реализация с помощью PHP.

Первый метод распространяется на статические документы, страницы и контент вашего сайта, а второй способ — на динамические страницы, создающиеся на вашем сайте в процессе его функционирования.

Чаще всего X-Robots-Tag используется с помощью файла .htaccess, поэтому разберем этот способ подробнее, а после кратко поговорим об использовании его с помощью PHP.

Пример использования X-Robots-Tag с помощью .htaccess

Данный файл .htaccess находится в корне сайта. Открывается для редактирования текстовым редактором или средствами, представленными в файловом менеджере вашего хостинга.

Допустим, вы решили закрыть от индексации все файлы .pdf, имеющиеся на вашем сайте. В .htaccess прописывается следующее:

Пример закрыть от индексации все файлы .pdf через x robots tag

<FilesMatch> — директива, позволяющая искать на сайте файлы, используя регулярные выражения.

В нашем случае, регулярным выражением является .pdf, а знак $, стоящий перед ним, указывает на то, что выражение находится в конце строки.

Таким образом, будут найдены все .pdf файлы и закрыты от индексации с помощью noindex. Также, директива nofollow запретит переходить по ссылкам в этих файлах.

Еще пример:

Запрет кэширования, отображения в сниппете и удаление из индекса в определенную дату всех файлов формата .pdf, .doc, .swf

Будут найдены все файлы .doc, .pdf и .swf. К ним будут применены следующие правила:

запрет на кэширование;
запрет на отображение на них сниппета в результатах поисковой выдачи;
1 июля 2019 года в 12:00, все файлы будут удалены из индекса поисковых систем.

Пример использования с помощью PHP

В данном случае нам понадобится файл index.php, который также находится в корне вашего сайта. Между тегами <head> и </head>, нужно прописать функцию header.

Например, чтобы запретить индексацию контента и переход по ссылкам, функция должна выглядеть так:

Запрет и индексации контента в index.php

Как скрыть заголовок от людей

Иногда бывают ситуации, в которых необходимо скрыть настройки своего сайта от посторонних глаз. Давайте настроим наш X-Robots-Tag таким образом, чтобы его указания видели только роботы поисковых систем.

Опять редактируем файл .htaccess:

Скрыть настройки x-robots-tag в .htaccess для Google

Теперь X-Robots-Tag будет виден только поисковому роботу Google.

Как проверить использование HTTP-заголовка X-Robots-Tag

Если вы проверяете у своего сайта, то соответственно лучшим способом — это будет заглянуть в файл .htaccess.

Если у вас нет доступа к этому файлу, то тогда могут помочь эти инструменты. Рассмотрим несколько способов проверки HTTP-заголовка X-Robots-Tag в программах, сервисах и с помощью плагинов к браузерам.

Онлайн сервисы

1. Проверка ответа сервера от Яндекс

В сервисе Яндекса заголовок запрещающий индексацию страницы, будет выглядеть вот так.

Проверка x robots tag через сервис Яндекса

2. askapache.com

Онлайн инструмент, простой и понятный в использовании.

3. pr-cy.ru/x-robots-checker

Русский сервис для проверки x-robots-tag.

4. site-analyzer.pro/services-seo/robots-meta-headers-checker/

Сервис русскоязычной программы по сканированию сайтов. Плюсы, что можно проверять одновременно до 50 url.

Анализ x robots tag в сервисе site analyzer

Плагины к браузерам

1. Плагин Web Developer для Google Chrome и Firefox

Установите расширение в ваш браузер, на интересующем вас документе нажмите на значок плагина и проследуйте: «Information» → «View Response Headers».

Результаты проверки выглядят так:

Плагин web developer для проверки x-robots-tag

2. Плагин Detailed SEO Extension для Chrome и FireFox

Позволяет просматривать ответ сервера прямо при просмотре страниц. Очень удобный плагин. Доступен для Google Chrome и Firefox.

Просмотр x-robots-tag в плагине Detailed SEO Extension

Программы

1. Netpeak Spider (Не доступен в России)

Данная программа позволяет сделать анализ всего сайта целиком, отдельных документов или отдельной директории. Закрытые для индексации документы будут отдельно выделены следующими параметрами:

Запрет в X-Robots-Tag. Указывает на страницы, заблокированные к индексации посредством «noindex».
Nofollow в X-Robots-Tag. Указывает на страницы, в которых присутствует «nofollow» в поле X-Robots-Tag в HTTP-заголовках ответа сервера.

2. Screaming Frog

Очень удобный инструмент для обхода огромных сайтов. Результаты выглядят так:

3. Site Analyzer

Русская разработка аналога Screaming Frog. Более современный интерфейс, стоит дешевле и справляется не хуже с большим объемом данных.

Выводы

Использование X-Robots-Tag имеет ряд преимуществ:

возможность использования регулярных выражений в файле .htaccess для передачи указаний поисковым системам;
действует для любого типа контента;
правила индексации скрыты от посторонних глаз;
имеет больший приоритет перед поисковиками, нежели файл robots.txt.

Использование данного метода должно осуществляться с осторожностью и пониманием значений директив.

Александр Овсянников

17 лет в интернет-бизнесе. Успешно продал десятки проектов. Исследую, как создавать и развивать долгосрочные онлайн-проекты в одного через органический трафик и автоматизацию — сохраняя свободу.

Как использовать и проверить заголовок HTTP X-Robots-Tag