Техническая оптимизация

robots.txt для AI-краулеров

robots.txt для AI-краулеров нужен, чтобы управлять доступом ботов поиска и цитирования, боты, запускаемые пользователем, и боты для обучения без случайной блокировки публичного контента, который должен попадать в AI-ответы.

Какие AI-боты бывают

Не все AI-боты одинаковы. Одни получают страницы для поиска и цитирования, другие загружают страницу по запросу пользователя, третьи собирают данные для обучения. Стратегия robots.txt должна разделять эти сценарии.

Боты для цитирования, пользовательские боты и боты для обучения

ТипНазначениеРекомендация
Боты поиска и цитированияПолучают страницы для ответов и цитированияОбычно разрешать для публичного контента
Боты, запускаемые пользователемЗагружают страницу по запросу пользователяОбычно разрешать
Боты для обученияСобирают данные для обучения моделейРешение зависит от политики сайта

Критически важные боты поиска и цитирования: OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot.

Базовый robots.txt

User-agent: *
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://example.com/sitemap.xml

Если есть закрытые разделы, правила Disallow должны оставаться для них явными.

Разрешать или блокировать

СценарийЧто делатьПочему
Публичные услуги и статьиРазрешить ботов поиска и цитированияЭти страницы должны быть источниками для ответов
Личный кабинетЗапретитьПриватный контент не должен сканироваться
Платные материалыОграничить по политикеНужен баланс видимости и доступа
Боты для обученияРешать отдельноОбучение моделей и цитирование — разные сценарии

Проверьте, не заблокированы ли AI-краулеры

Бесплатный аудит покажет, видят ли AI-боты публичные страницы и нет ли конфликтов в robots.txt или CDN.

Проверить robots.txt

Частые вопросы

Каких AI-ботов учитывать в robots.txt?

Минимально проверьте OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot, GPTBot, ChatGPT-User, Bingbot, YandexBot и YandexAdditionalBot.

GPTBot и OAI-SearchBot — одно и то же?

Нет. GPTBot чаще связывают со сбором данных для обучения, а OAI-SearchBot — со сценариями поиска и цитирования. Для публичного контента важно понимать назначение каждого бота.

Всегда ли нужно разрешать AI-ботов?

Нет. Для публичных маркетинговых страниц обычно полезно разрешить ботов поиска и цитирования. Для приватных, платных или чувствительных разделов доступ нужно ограничивать явно.

Что делать, если robots.txt блокирует весь сайт?

Проверьте, не стоит ли Disallow: / для всех User-Agent или важных AI-ботов. Для публичного контента нужно точечно разрешить доступ и сохранить запреты для закрытых разделов.

Как проверить CDN/WAF-блокировки?

Запустите аудит и проверьте ответы для разных User-Agent. Иногда robots.txt разрешает доступ, но Cloudflare, WAF или сервер блокируют запрос до приложения.