Прежде чем оптимизировать контент под нейросети, нужно ответить на базовый вопрос: может ли AI-краулер вообще добраться до вашего сайта? Без этого любая работа над структурой текстов и семантикой бессмысленна. GEO-аудит начинается именно с проверки технической доступности, и только потом переходит к содержанию.

Зачем AI-поисковикам нужен отдельный технический аудит?

У каждого AI-сервиса свой краулер

Для попадания в AI-ответы достаточно выполнить общие требования поисковой доступности: страница отдаёт HTTP 200, Googlebot не заблокирован в robots.txt, контент проиндексирован.1 Однако у каждого крупного AI-сервиса есть собственные краулеры с отдельными User-agent-токенами — и блокировка одного из них закрывает вам доступ к конкретной платформе.

Типы ботов по назначению

Для понимания картины важно разграничить типы ботов по назначению.

БотВладелецНазначениеУправление
GooglebotGoogleИндексация для поиска и AI Overviewsrobots.txt: User-agent: Googlebot
Google-ExtendedGoogleКонтент в AI-продуктах Google (Bard, Vertex)robots.txt token (не HTTP UA)2
OAI-SearchBotOpenAIПоказ в ChatGPT Search, ссылки на источникиrobots.txt: User-agent: OAI-SearchBot3
GPTBotOpenAIОбучение моделей OpenAIrobots.txt: User-agent: GPTBot3
ChatGPT-UserOpenAIUser-triggered запросыrobots.txt: User-agent: ChatGPT-User3
ClaudeBotAnthropicКраулинг для Anthropicrobots.txt: User-agent: ClaudeBot4
PerplexityBotPerplexityПоказ в результатах Perplexity Searchrobots.txt: User-agent: PerplexityBot5
BingbotMicrosoftИндексация Bing (в т.ч. для ChatGPT Search)robots.txt: User-agent: Bingbot

Google-Extended — это токен, а не User-agent

Важный нюанс: Google-Extended — это не HTTP User-agent, а отдельный токен в robots.txt для управления использованием контента в AI-продуктах Google.2 Путать его с Googlebot — распространённая ошибка, которая приводит к непредсказуемым последствиям.

Как проверить robots.txt на блокировку AI-ботов?

Проверьте robots.txt вручную или через Bing Webmaster Tools — начните с самого уязвимого места. Частая причина невидимости в AI-поиске — устаревшие шаблоны с Disallow: / для всех пользователей или WAF-правила, блокирующие незнакомые User-agent.

Минимально корректная конфигурация для AI-видимости:

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

Политика по GPTBot и Google-Extended

Политику по GPTBot и Google-Extended нужно принять осознанно: разрешение этих ботов означает согласие на использование контента для обучения моделей. Если цель — только поисковая видимость, а не обучение, их можно заблокировать отдельно, не затрагивая поисковые краулеры.

Не забудьте про Bingbot и OAI-SearchBot

Один из частых сценариев: владелец сайта разрешил Googlebot, но забыл про Bingbot.6 Для видимости в ChatGPT Search дополнительно убедитесь, что разрешён OAI-SearchBot — он отвечает именно за показ сайта в ответах ChatGPT.3

Проверка подлинности робота Яндекса

Для Яндекса важна дополнительная проверка: подлинность робота подтверждается через reverse DNS, поскольку User-agent можно подделать.7

Что делать с CDN и WAF, которые блокируют AI-ботов?

Ваш robots.txt может быть настроен правильно, но Cloudflare или другой WAF режет запросы по User-agent раньше, чем краулер доберётся до содержимого. Проверьте лог доступа и убедитесь, что AI-боты получают 200, а не 403, 429 или страницу с CAPTCHA.

Инструменты Cloudflare: AI Crawl Control и Block AI Bots

Cloudflare предоставляет два инструмента: AI Crawl Control для гранулярного управления доступом конкретных AI-сервисов8 и опцию Block AI Bots, которая блокирует верифицированных AI-краулеров и часть неверифицированных.9 Если вы хотите попадать в AI-ответы, убедитесь, что Block AI Bots отключена для нужных ботов или настроена точечно.

Быстрая проверка доступности через curl

Быстрая проверка доступности через curl:

curl -A "OAI-SearchBot" -I https://example.com/article

Ответ должен быть 200 OK. Если видите 403 Forbidden или редирект на страницу проверки — CDN блокирует бота на уровне WAF, и robots.txt тут ни при чём.

Как убедиться, что AI-краулер видит контент, а не пустую страницу?

Контент должен быть в initial HTML

Контент должен присутствовать в initial HTML — том, что сервер возвращает без выполнения JavaScript. Если у вас SPA или фреймворк с клиентским рендерингом, краулер получит пустой <div id="root"></div> вместо текста статьи.

Диагностика через curl и grep

Диагностика выполняется той же командой:

curl -A "OAI-SearchBot" https://example.com/article | grep -c "Ключевое слово из текста"

Если вывод 0 — контент в HTML отсутствует. Для попадания в AI-поиск страница должна отдавать в initial HTML как минимум: <title>, <meta name="description">, <link rel="canonical">, <h1>, ключевой абзац и JSON-LD разметку.

Подробнее о проблеме рендеринга в SPA — в статье Почему сайт на JavaScript (SPA) не попадает в AI-ответы.

Нужен ли файл llms.txt?

llms.txt — предложенный стандарт карты сайта, ориентированной на LLM, опубликованный в сентябре 2024 года.10 Это инициатива, а не принятый стандарт крупных поисковиков. Ни Google, ни OpenAI, ни Яндекс официально не заявляли о его поддержке в качестве сигнала ранжирования.

Практическое значение: если решаете внедрить — не вредит, но и не заменяет базовую доступность через robots.txt и корректную индексацию. Приоритет — в правильной настройке краулеров, а не в экспериментальных форматах.

Как отслеживать трафик от AI-поисковиков после аудита?

После того как вы убедились, что OAI-SearchBot допущен и не блокируется WAF, настройте отслеживание реферального трафика. OpenAI позволяет идентифицировать визиты из ChatGPT через параметр utm_source=chatgpt.com.11

Это даёт возможность сравнивать видимость до и после технических правок — точно так же, как вы отслеживаете органику в Google Search Console. Мониторинг AI-видимости в разрезе платформ и интентов — то, чем занимается платформа GeoWatch: фиксирует динамику упоминаний, цитирований и рекомендаций.

Чек-лист технического GEO-аудита

Ниже — минимальный набор проверок, которые стоит пройти перед тем, как переходить к контентной оптимизации.

robots.txt:

  • Googlebot и Bingbot не заблокированы
  • OAI-SearchBot разрешён (для видимости в ChatGPT Search)3
  • ChatGPT-User разрешён3
  • PerplexityBot разрешён5
  • GPTBot и Google-Extended — осознанное решение по политике обучения

Инфраструктура:

  • WAF и CDN не блокируют AI User-agent (проверить curl с каждым UA)
  • Страницы отвечают 200, не 403/429/CAPTCHA для AI-ботов
  • robots.txt присутствует на основном домене и поддомене (если применимо)
  • Sitemap подключён в robots.txt

Рендеринг и контент:

  • Основной текст присутствует в initial HTML (не только после JS)
  • <title>, <meta description>, <canonical>, <h1> — в initial HTML
  • JSON-LD разметка (Article, Organization) — в initial HTML, не на клиенте
  • Google URL Inspection и Bing URL Inspection — страница проиндексирована

Мониторинг:

  • Настроено отслеживание utm_source=chatgpt.com
  • Ключевые страницы проверены через Google Search Console

О том, что именно проверяет каждый из инструментов диагностики, читайте в статье Как проверить, что ChatGPT «видит» на вашем сайте. Семантическую вёрстку страниц под AI-извлечение разбираем в Семантическая вёрстка HTML5 для нейросетей.

Типичные ошибки, которые обнаруживает аудит

  • Disallow: / для всех — устаревший шаблон robots.txt, скопированный с чужого сайта.
  • WAF режет AI-UA — CDN-правила блокируют ботов до чтения robots.txt.
  • Разрешили GPTBot без намерения — случайно согласились на обучение моделей.
  • Заблокировали OAI-SearchBot — сайт исключён из ChatGPT Search.3
  • Контент только в JS — краулер получает пустой HTML.
  • robots.txt только на www — основной домен без правил.
  • 403/429 для AI-ботов — rate limiting применяется без исключений.
  • Нет sitemap — краулеры не знают о новых страницах.

Что дальше после технического аудита?

Технический аудит — фундамент. Когда доступность подтверждена, имеет смысл переходить к структуре контента: как AI-поисковики выбирают конкретные фрагменты и почему попадание в источники не ограничено топ-10 органики — об этом в статье Как AI-поисковики выбирают источники: ранжирование фрагментов.

Если хотите получить системную картину — команда GeoWatch проводит GEO-аудит: проверяет техническую доступность, анализирует, как нейросети воспринимают контент, и показывает, где именно бренд появляется (или не появляется) в AI-ответах.

Источники

Footnotes

  1. Google Search Central — Succeeding in AI Search — developers.google.com ↗ (дата доступа: 21 мая 2025)
  2. Google Common Crawlers — Google-Extended token — developers.google.com ↗ (дата доступа: 23 апр 2026) 2
  3. OpenAI — Bots documentation (GPTBot, OAI-SearchBot, ChatGPT-User) — developers.openai.com ↗ (дата доступа: 2026-06-03) 2 3 4 5 6 7
  4. Anthropic — ClaudeBot — support.claude.com ↗ (дата доступа: 7 апр 2026)
  5. Perplexity — Perplexity Crawlers — docs.perplexity.ai ↗ (дата доступа: 2026-06-03) 2
  6. Google Search Central — Robots.txt introduction — developers.google.com ↗ (дата доступа: 2026-06-03)
  7. Yandex Webmaster — Checking Yandex Robots — yandex.com ↗ (дата доступа: 2026-06-03)
  8. Cloudflare — AI Crawl Control — developers.cloudflare.com ↗ (дата доступа: 23 апр 2026)
  9. Cloudflare — Block AI Bots — developers.cloudflare.com ↗ (дата доступа: 5 мая 2026)
  10. llmstxt.org — llms.txt proposal — llmstxt.org ↗ (дата доступа: 3 сен 2024)
  11. OpenAI — Publishers and Developers FAQ — help.openai.com ↗ (дата доступа: 2026-06-03)