AIクローラーをrobots.txtで許可・ブロックする方法|2026年版一覧付き
AIクローラーとは
AIクローラーとは、ChatGPTやPerplexity、ClaudeなどのAI検索エンジンがWebサイトの情報を収集するために使用する自動プログラムです。従来のGooglebotやBingbotと同様に、robots.txtのルールに従ってサイトを巡回します。
2026年現在、主要なAIサービスはそれぞれ独自のクローラーを運用しており、robots.txtで個別に許可・ブロックを制御できます。
主要AIクローラー一覧
| クローラー名 | 運営元 | 用途 |
|---|---|---|
| GPTBot | OpenAI | ChatGPTの学習・検索 |
| ChatGPT-User | OpenAI | ChatGPTのブラウジング機能 |
| ClaudeBot | Anthropic | Claudeの学習・検索 |
| anthropic-ai | Anthropic | Anthropicの汎用クローラー |
| PerplexityBot | Perplexity | Perplexity検索 |
| Google-Extended | Geminiの学習用 | |
| GoogleOther | Google AI Overviewなどの実験用 | |
| CCBot | Common Crawl | オープンデータセット(多くのAIが利用) |
| Bytespider | ByteDance | TikTok/ByteDanceのAI |
| Applebot-Extended | Apple | Apple Intelligenceの学習用 |
| cohere-ai | Cohere | CohereのAI学習用 |
| Diffbot | Diffbot | ナレッジグラフ構築用 |
AIクローラーを許可する設定
AI検索であなたのコンテンツが引用されるためには、AIクローラーのアクセスを許可する必要があります。以下はすべての主要AIクローラーを許可する設定例です。
# 主要AIクローラーの許可
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: GoogleOther
Allow: /
User-agent: CCBot
Allow: /
User-agent: Applebot-Extended
Allow: /
# 従来の検索エンジン
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
User-agent: * の Allow: / だけでは不十分な場合があります。一部のAIクローラーは、明示的に自分のUser-agent名で許可されていない場合にクロールを控えることがあるためです。
AIクローラーをブロックする設定
特定のAIクローラーにコンテンツを使われたくない場合は、Disallow で制御できます。
特定のAIクローラーのみブロック
# GPTBotだけブロック(他は許可)
User-agent: GPTBot
Disallow: /
User-agent: *
Allow: /
すべてのAIクローラーをブロック
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
# 通常の検索エンジンは許可
User-agent: *
Allow: /
一部のページだけブロック
# AIクローラーには /private/ 以下だけブロック
User-agent: GPTBot
Disallow: /private/
Allow: /
User-agent: ClaudeBot
Disallow: /private/
Allow: /
許可するべきか、ブロックするべきか
許可を推奨するケース
- ブログやメディアサイト — AI検索で引用されることでトラフィック増加が期待できる
- ツールやサービスのサイト — AI検索結果で推薦されるチャンス
- E-E-A-Tを重視するサイト — AIに引用されること自体が権威性のシグナルになりうる
- GEO対策を行いたいサイト — AIクローラーを許可しなければGEO対策は意味がない
ブロックを検討するケース
- 有料コンテンツ — 記事の中身がAIの回答に使われると、購読の動機が薄れる
- 独自データや一次情報 — 競合に無断で利用されるリスク
- 著作権上の懸念 — AI学習にコンテンツを使われたくない場合
部分的な制御がベスト
多くのサイトにとって、すべて許可 or すべてブロックの二択ではなく、部分的な制御が現実的です。公開コンテンツはAIクローラーに許可しつつ、有料コンテンツや管理画面はブロックするのが合理的な選択です。
robots.txtの確認方法
設定したrobots.txtが正しく機能しているか確認する方法です。
ブラウザで直接アクセス
https://あなたのサイト/robots.txt にアクセスして内容を確認できます。
Google Search Console
Google Search Consoleの「robots.txtテスター」で、特定のURLがブロックされているかどうかを確認できます。ただし、AIクローラー固有のテスターは現時点では提供されていません。
IndexReadyで確認
IndexReadyのGEOスコアリングでは、robots.txtでのAIクローラー許可状況を自動チェックします。GPTBot、ClaudeBot、PerplexityBot等の主要AIクローラーが許可されているかどうかを一目で確認できます。
llms.txtとの違い
robots.txtとよく混同されるのがllms.txtです。
| robots.txt | llms.txt | |
|---|---|---|
| 目的 | クロールの許可/拒否 | サイト情報をAIに提供 |
| 対象 | すべてのクローラー | AI/LLM |
| 効果 | アクセス制御 | コンテンツ理解の促進 |
| 必須度 | ほぼ全サイトに必要 | GEO対策をするなら推奨 |
robots.txtでAIクローラーを許可した上で、llms.txtでサイトの概要を伝える。この2つを組み合わせることで、AI検索での引用可能性が最大化されます。
よくある質問(FAQ)
robots.txtでAIクローラーをブロックすれば、AIの学習に使われませんか?
主要なAI企業(OpenAI、Anthropic、Google等)はrobots.txtのルールを尊重すると公表しています。ただし、robots.txtは技術的な強制力を持たないため、すべてのAIクローラーが従う保証はありません。法的な保護が必要な場合は、利用規約の明記やアクセス制限の導入を検討してください。
User-agent: * の設定だけでAIクローラーも制御できますか?
User-agent: * はすべてのクローラーに適用されるルールです。しかし、AIクローラーの中にはこのワイルドカードルールよりも自分専用のルールを優先するものがあります。確実に制御するなら、各AIクローラーのUser-agent名を明示的に指定することをおすすめします。
Google AI OverviewもGPTBotのようにブロックできますか?
Google AI Overviewは通常のGooglebotがクロールしたデータを使用するため、AI Overview単体をブロックすることはできません。Google-Extended をブロックするとGeminiの学習には使われなくなりますが、AI Overview自体には影響しません。AI Overviewからの引用を防ぐには nosnippet メタタグを使用します。
robots.txtを変更したらすぐに反映されますか?
クローラーがrobots.txtを読み直すタイミングはクローラーによって異なります。Googlebotは通常24時間以内に変更を検出しますが、AIクローラーの反映タイミングは公式に明示されていません。変更後、数日〜1週間程度の猶予を見てください。