Прежде чем оптимизировать контент под нейросети, нужно ответить на базовый вопрос: может ли AI-краулер вообще добраться до вашего сайта? Без этого любая работа над структурой текстов и семантикой бессмысленна. GEO-аудит начинается именно с проверки технической доступности, и только потом переходит к содержанию.
Зачем AI-поисковикам нужен отдельный технический аудит?
У каждого AI-сервиса свой краулер
Для попадания в AI-ответы достаточно выполнить общие требования поисковой доступности: страница отдаёт HTTP 200, Googlebot не заблокирован в robots.txt, контент проиндексирован.1 Однако у каждого крупного AI-сервиса есть собственные краулеры с отдельными User-agent-токенами — и блокировка одного из них закрывает вам доступ к конкретной платформе.
Типы ботов по назначению
Для понимания картины важно разграничить типы ботов по назначению.
| Бот | Владелец | Назначение | Управление |
|---|---|---|---|
| Googlebot | Индексация для поиска и AI Overviews | robots.txt: User-agent: Googlebot | |
| Google-Extended | Контент в AI-продуктах Google (Bard, Vertex) | robots.txt token (не HTTP UA)2 | |
| OAI-SearchBot | OpenAI | Показ в ChatGPT Search, ссылки на источники | robots.txt: User-agent: OAI-SearchBot3 |
| GPTBot | OpenAI | Обучение моделей OpenAI | robots.txt: User-agent: GPTBot3 |
| ChatGPT-User | OpenAI | User-triggered запросы | robots.txt: User-agent: ChatGPT-User3 |
| ClaudeBot | Anthropic | Краулинг для Anthropic | robots.txt: User-agent: ClaudeBot4 |
| PerplexityBot | Perplexity | Показ в результатах Perplexity Search | robots.txt: User-agent: PerplexityBot5 |
| Bingbot | Microsoft | Индексация Bing (в т.ч. для ChatGPT Search) | robots.txt: User-agent: Bingbot |
Google-Extended — это токен, а не User-agent
Важный нюанс: Google-Extended — это не HTTP User-agent, а отдельный токен в robots.txt для управления использованием контента в AI-продуктах Google.2 Путать его с Googlebot — распространённая ошибка, которая приводит к непредсказуемым последствиям.
Как проверить robots.txt на блокировку AI-ботов?
Проверьте robots.txt вручную или через Bing Webmaster Tools — начните с самого уязвимого места. Частая причина невидимости в AI-поиске — устаревшие шаблоны с Disallow: / для всех пользователей или WAF-правила, блокирующие незнакомые User-agent.
Минимально корректная конфигурация для AI-видимости:
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
Политика по GPTBot и Google-Extended
Политику по GPTBot и Google-Extended нужно принять осознанно: разрешение этих ботов означает согласие на использование контента для обучения моделей. Если цель — только поисковая видимость, а не обучение, их можно заблокировать отдельно, не затрагивая поисковые краулеры.
Не забудьте про Bingbot и OAI-SearchBot
Один из частых сценариев: владелец сайта разрешил Googlebot, но забыл про Bingbot.6 Для видимости в ChatGPT Search дополнительно убедитесь, что разрешён OAI-SearchBot — он отвечает именно за показ сайта в ответах ChatGPT.3
Проверка подлинности робота Яндекса
Для Яндекса важна дополнительная проверка: подлинность робота подтверждается через reverse DNS, поскольку User-agent можно подделать.7
Что делать с CDN и WAF, которые блокируют AI-ботов?
Ваш robots.txt может быть настроен правильно, но Cloudflare или другой WAF режет запросы по User-agent раньше, чем краулер доберётся до содержимого. Проверьте лог доступа и убедитесь, что AI-боты получают 200, а не 403, 429 или страницу с CAPTCHA.
Инструменты Cloudflare: AI Crawl Control и Block AI Bots
Cloudflare предоставляет два инструмента: AI Crawl Control для гранулярного управления доступом конкретных AI-сервисов8 и опцию Block AI Bots, которая блокирует верифицированных AI-краулеров и часть неверифицированных.9 Если вы хотите попадать в AI-ответы, убедитесь, что Block AI Bots отключена для нужных ботов или настроена точечно.
Быстрая проверка доступности через curl
Быстрая проверка доступности через curl:
curl -A "OAI-SearchBot" -I https://example.com/article
Ответ должен быть 200 OK. Если видите 403 Forbidden или редирект на страницу проверки — CDN блокирует бота на уровне WAF, и robots.txt тут ни при чём.
Как убедиться, что AI-краулер видит контент, а не пустую страницу?
Контент должен быть в initial HTML
Контент должен присутствовать в initial HTML — том, что сервер возвращает без выполнения JavaScript. Если у вас SPA или фреймворк с клиентским рендерингом, краулер получит пустой <div id="root"></div> вместо текста статьи.
Диагностика через curl и grep
Диагностика выполняется той же командой:
curl -A "OAI-SearchBot" https://example.com/article | grep -c "Ключевое слово из текста"
Если вывод 0 — контент в HTML отсутствует. Для попадания в AI-поиск страница должна отдавать в initial HTML как минимум: <title>, <meta name="description">, <link rel="canonical">, <h1>, ключевой абзац и JSON-LD разметку.
Подробнее о проблеме рендеринга в SPA — в статье Почему сайт на JavaScript (SPA) не попадает в AI-ответы.
Нужен ли файл llms.txt?
llms.txt — предложенный стандарт карты сайта, ориентированной на LLM, опубликованный в сентябре 2024 года.10 Это инициатива, а не принятый стандарт крупных поисковиков. Ни Google, ни OpenAI, ни Яндекс официально не заявляли о его поддержке в качестве сигнала ранжирования.
Практическое значение: если решаете внедрить — не вредит, но и не заменяет базовую доступность через robots.txt и корректную индексацию. Приоритет — в правильной настройке краулеров, а не в экспериментальных форматах.
Как отслеживать трафик от AI-поисковиков после аудита?
После того как вы убедились, что OAI-SearchBot допущен и не блокируется WAF, настройте отслеживание реферального трафика. OpenAI позволяет идентифицировать визиты из ChatGPT через параметр utm_source=chatgpt.com.11
Это даёт возможность сравнивать видимость до и после технических правок — точно так же, как вы отслеживаете органику в Google Search Console. Мониторинг AI-видимости в разрезе платформ и интентов — то, чем занимается платформа GeoWatch: фиксирует динамику упоминаний, цитирований и рекомендаций.
Чек-лист технического GEO-аудита
Ниже — минимальный набор проверок, которые стоит пройти перед тем, как переходить к контентной оптимизации.
robots.txt:
- Googlebot и Bingbot не заблокированы
- OAI-SearchBot разрешён (для видимости в ChatGPT Search)3
- ChatGPT-User разрешён3
- PerplexityBot разрешён5
- GPTBot и Google-Extended — осознанное решение по политике обучения
Инфраструктура:
- WAF и CDN не блокируют AI User-agent (проверить curl с каждым UA)
- Страницы отвечают 200, не 403/429/CAPTCHA для AI-ботов
- robots.txt присутствует на основном домене и поддомене (если применимо)
- Sitemap подключён в robots.txt
Рендеринг и контент:
- Основной текст присутствует в initial HTML (не только после JS)
<title>,<meta description>,<canonical>,<h1>— в initial HTML- JSON-LD разметка (Article, Organization) — в initial HTML, не на клиенте
- Google URL Inspection и Bing URL Inspection — страница проиндексирована
Мониторинг:
- Настроено отслеживание utm_source=chatgpt.com
- Ключевые страницы проверены через Google Search Console
О том, что именно проверяет каждый из инструментов диагностики, читайте в статье Как проверить, что ChatGPT «видит» на вашем сайте. Семантическую вёрстку страниц под AI-извлечение разбираем в Семантическая вёрстка HTML5 для нейросетей.
Типичные ошибки, которые обнаруживает аудит
- Disallow: / для всех — устаревший шаблон robots.txt, скопированный с чужого сайта.
- WAF режет AI-UA — CDN-правила блокируют ботов до чтения robots.txt.
- Разрешили GPTBot без намерения — случайно согласились на обучение моделей.
- Заблокировали OAI-SearchBot — сайт исключён из ChatGPT Search.3
- Контент только в JS — краулер получает пустой HTML.
- robots.txt только на www — основной домен без правил.
- 403/429 для AI-ботов — rate limiting применяется без исключений.
- Нет sitemap — краулеры не знают о новых страницах.
Что дальше после технического аудита?
Технический аудит — фундамент. Когда доступность подтверждена, имеет смысл переходить к структуре контента: как AI-поисковики выбирают конкретные фрагменты и почему попадание в источники не ограничено топ-10 органики — об этом в статье Как AI-поисковики выбирают источники: ранжирование фрагментов.
Если хотите получить системную картину — команда GeoWatch проводит GEO-аудит: проверяет техническую доступность, анализирует, как нейросети воспринимают контент, и показывает, где именно бренд появляется (или не появляется) в AI-ответах.
Источники
Footnotes
- Google Search Central — Succeeding in AI Search — developers.google.com ↗ (дата доступа: 21 мая 2025) ↩
- Google Common Crawlers — Google-Extended token — developers.google.com ↗ (дата доступа: 23 апр 2026) ↩ ↩2
- OpenAI — Bots documentation (GPTBot, OAI-SearchBot, ChatGPT-User) — developers.openai.com ↗ (дата доступа: 2026-06-03) ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7
- Anthropic — ClaudeBot — support.claude.com ↗ (дата доступа: 7 апр 2026) ↩
- Perplexity — Perplexity Crawlers — docs.perplexity.ai ↗ (дата доступа: 2026-06-03) ↩ ↩2
- Google Search Central — Robots.txt introduction — developers.google.com ↗ (дата доступа: 2026-06-03) ↩
- Yandex Webmaster — Checking Yandex Robots — yandex.com ↗ (дата доступа: 2026-06-03) ↩
- Cloudflare — AI Crawl Control — developers.cloudflare.com ↗ (дата доступа: 23 апр 2026) ↩
- Cloudflare — Block AI Bots — developers.cloudflare.com ↗ (дата доступа: 5 мая 2026) ↩
- llmstxt.org — llms.txt proposal — llmstxt.org ↗ (дата доступа: 3 сен 2024) ↩
- OpenAI — Publishers and Developers FAQ — help.openai.com ↗ (дата доступа: 2026-06-03) ↩
