AI-компании краулят веб агрессивнее поисковиков. Блокировка по User-Agent + robots.txt — первая линия обороны, минимальные усилия, нулевое влияние на пользователей.
Масштаб проблемы
Статистика соотношения «краул-запросов к одному реферальному переходу» (июнь 2025):
- Google: 14:1 (14 краулов на 1 переход)
- OpenAI: 1700:1
- Anthropic: 73000:1
AI-компании забирают контент, не возвращая трафик.
Список AI-краулеров
| Bot | Компания | Назначение |
|---|---|---|
GPTBot | OpenAI | Обучение моделей |
ChatGPT-User | OpenAI | Browsing в ChatGPT |
ClaudeBot | Anthropic | Обучение моделей |
Claude-Web | Anthropic | Browsing |
CCBot | Common Crawl | Open dataset (используется для обучения) |
Google-Extended | Gemini/Bard (отделён от Googlebot) | |
Bytespider | ByteDance | TikTok/Douyin AI |
Amazonbot | Amazon | Alexa AI |
PerplexityBot | Perplexity | AI-поиск |
cohere-ai | Cohere | Обучение моделей |
Diffbot | Diffbot | Структурированный скрейпинг |
FacebookBot | Meta | AI-фичи Facebook |
ImagesiftBot | ImageSift | Анализ изображений |
Omgilibot | Omgili | Мониторинг дискуссий |
YouBot | You.com | AI-поиск |
Applebot-Extended | Apple | Apple Intelligence |
Googlebot vs Google-Extended
Googlebot— индексация для поиска, блокировать нельзя (потеряешь SEO).Google-Extended— отдельный бот для AI (Gemini), блокировать безопасно.
Блокировка на уровне nginx
map $http_user_agent $is_ai_bot {
default 0;
~*GPTBot 1;
~*ClaudeBot 1;
~*Claude-Web 1;
~*CCBot 1;
~*Google-Extended 1;
~*Bytespider 1;
~*ChatGPT-User 1;
~*Amazonbot 1;
~*anthropic-ai 1;
~*Applebot-Extended 1;
~*PerplexityBot 1;
~*cohere-ai 1;
~*Diffbot 1;
~*ImagesiftBot 1;
~*Omgilibot 1;
~*YouBot 1;
}
server {
if ($is_ai_bot) {
return 403;
}
}Отдавать 403, а не 200 с пустым контентом — экономит ресурсы сервера.
robots.txt
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
robots.txt — рекомендация, не закон
Честные боты (GPTBot, ClaudeBot) соблюдают robots.txt. Злонамеренные — нет. Поэтому nginx map нужен как enforcement, robots.txt — как первый сигнал.
Что НЕ блокировать
| Бот | Почему оставить |
|---|---|
Googlebot | SEO — индексация для поиска |
Yandexbot | SEO — индексация для Яндекса |
bingbot | SEO — индексация для Bing |
TelegramBot | OG-превью при шаринге ссылок |
facebookexternalhit | OG-превью |
Twitterbot | OG-превью |
Комбинация с другими техниками
robots.txt + nginx map — только первый слой. Злонамеренный скрапер подделает User-Agent. Следующие слои:
- TLS fingerprinting — отличает реальный браузер от скрипта на уровне TLS
- HMAC-подпись API запросов — подпись от фронтенда
- Поведенческий анализ трафика — скоринг по поведению
Связанные заметки
- Защита API от скрейпинга — общая стратегия
- AI poisoning — дезинформация AI вместо блокировки
- 00 Nginx