Техническая оптимизация
robots.txt для AI-краулеров
robots.txt для AI-краулеров нужен, чтобы управлять доступом ботов поиска и цитирования, боты, запускаемые пользователем, и боты для обучения без случайной блокировки публичного контента, который должен попадать в AI-ответы.
Какие AI-боты бывают
Не все AI-боты одинаковы. Одни получают страницы для поиска и цитирования, другие загружают страницу по запросу пользователя, третьи собирают данные для обучения. Стратегия robots.txt должна разделять эти сценарии.
Боты для цитирования, пользовательские боты и боты для обучения
| Тип | Назначение | Рекомендация |
|---|---|---|
| Боты поиска и цитирования | Получают страницы для ответов и цитирования | Обычно разрешать для публичного контента |
| Боты, запускаемые пользователем | Загружают страницу по запросу пользователя | Обычно разрешать |
| Боты для обучения | Собирают данные для обучения моделей | Решение зависит от политики сайта |
Критически важные боты поиска и цитирования: OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot.
Базовый robots.txt
User-agent: *
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
Sitemap: https://example.com/sitemap.xmlЕсли есть закрытые разделы, правила Disallow должны оставаться для них явными.
Разрешать или блокировать
| Сценарий | Что делать | Почему |
|---|---|---|
| Публичные услуги и статьи | Разрешить ботов поиска и цитирования | Эти страницы должны быть источниками для ответов |
| Личный кабинет | Запретить | Приватный контент не должен сканироваться |
| Платные материалы | Ограничить по политике | Нужен баланс видимости и доступа |
| Боты для обучения | Решать отдельно | Обучение моделей и цитирование — разные сценарии |
Проверьте, не заблокированы ли AI-краулеры
Бесплатный аудит покажет, видят ли AI-боты публичные страницы и нет ли конфликтов в robots.txt или CDN.
Проверить robots.txtЧастые вопросы
Каких AI-ботов учитывать в robots.txt?
Минимально проверьте OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot, GPTBot, ChatGPT-User, Bingbot, YandexBot и YandexAdditionalBot.
GPTBot и OAI-SearchBot — одно и то же?
Нет. GPTBot чаще связывают со сбором данных для обучения, а OAI-SearchBot — со сценариями поиска и цитирования. Для публичного контента важно понимать назначение каждого бота.
Всегда ли нужно разрешать AI-ботов?
Нет. Для публичных маркетинговых страниц обычно полезно разрешить ботов поиска и цитирования. Для приватных, платных или чувствительных разделов доступ нужно ограничивать явно.
Что делать, если robots.txt блокирует весь сайт?
Проверьте, не стоит ли Disallow: / для всех User-Agent или важных AI-ботов. Для публичного контента нужно точечно разрешить доступ и сохранить запреты для закрытых разделов.
Как проверить CDN/WAF-блокировки?
Запустите аудит и проверьте ответы для разных User-Agent. Иногда robots.txt разрешает доступ, но Cloudflare, WAF или сервер блокируют запрос до приложения.