AI-компании краулят веб агрессивнее поисковиков. Блокировка по User-Agent + robots.txt — первая линия обороны, минимальные усилия, нулевое влияние на пользователей.

Масштаб проблемы

Статистика соотношения «краул-запросов к одному реферальному переходу» (июнь 2025):

  • Google: 14:1 (14 краулов на 1 переход)
  • OpenAI: 1700:1
  • Anthropic: 73000:1

AI-компании забирают контент, не возвращая трафик.

Список AI-краулеров

BotКомпанияНазначение
GPTBotOpenAIОбучение моделей
ChatGPT-UserOpenAIBrowsing в ChatGPT
ClaudeBotAnthropicОбучение моделей
Claude-WebAnthropicBrowsing
CCBotCommon CrawlOpen dataset (используется для обучения)
Google-ExtendedGoogleGemini/Bard (отделён от Googlebot)
BytespiderByteDanceTikTok/Douyin AI
AmazonbotAmazonAlexa AI
PerplexityBotPerplexityAI-поиск
cohere-aiCohereОбучение моделей
DiffbotDiffbotСтруктурированный скрейпинг
FacebookBotMetaAI-фичи Facebook
ImagesiftBotImageSiftАнализ изображений
OmgilibotOmgiliМониторинг дискуссий
YouBotYou.comAI-поиск
Applebot-ExtendedAppleApple Intelligence

Googlebot vs Google-Extended

Googlebot — индексация для поиска, блокировать нельзя (потеряешь SEO). Google-Extended — отдельный бот для AI (Gemini), блокировать безопасно.

Блокировка на уровне nginx

map $http_user_agent $is_ai_bot {
    default 0;
    ~*GPTBot 1;
    ~*ClaudeBot 1;
    ~*Claude-Web 1;
    ~*CCBot 1;
    ~*Google-Extended 1;
    ~*Bytespider 1;
    ~*ChatGPT-User 1;
    ~*Amazonbot 1;
    ~*anthropic-ai 1;
    ~*Applebot-Extended 1;
    ~*PerplexityBot 1;
    ~*cohere-ai 1;
    ~*Diffbot 1;
    ~*ImagesiftBot 1;
    ~*Omgilibot 1;
    ~*YouBot 1;
}
 
server {
    if ($is_ai_bot) {
        return 403;
    }
}

Отдавать 403, а не 200 с пустым контентом — экономит ресурсы сервера.

robots.txt

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

robots.txt — рекомендация, не закон

Честные боты (GPTBot, ClaudeBot) соблюдают robots.txt. Злонамеренные — нет. Поэтому nginx map нужен как enforcement, robots.txt — как первый сигнал.

Что НЕ блокировать

БотПочему оставить
GooglebotSEO — индексация для поиска
YandexbotSEO — индексация для Яндекса
bingbotSEO — индексация для Bing
TelegramBotOG-превью при шаринге ссылок
facebookexternalhitOG-превью
TwitterbotOG-превью

Комбинация с другими техниками

robots.txt + nginx map — только первый слой. Злонамеренный скрапер подделает User-Agent. Следующие слои:

Связанные заметки