geoai検索robots.txtaiクローラー

AIクローラーをrobots.txtで許可・ブロックする方法|2026年版一覧付き

AIクローラーとは

AIクローラーとは、ChatGPTやPerplexity、ClaudeなどのAI検索エンジンがWebサイトの情報を収集するために使用する自動プログラムです。従来のGooglebotやBingbotと同様に、robots.txtのルールに従ってサイトを巡回します。

2026年現在、主要なAIサービスはそれぞれ独自のクローラーを運用しており、robots.txtで個別に許可・ブロックを制御できます。

主要AIクローラー一覧

クローラー名運営元用途
GPTBotOpenAIChatGPTの学習・検索
ChatGPT-UserOpenAIChatGPTのブラウジング機能
ClaudeBotAnthropicClaudeの学習・検索
anthropic-aiAnthropicAnthropicの汎用クローラー
PerplexityBotPerplexityPerplexity検索
Google-ExtendedGoogleGeminiの学習用
GoogleOtherGoogleGoogle AI Overviewなどの実験用
CCBotCommon Crawlオープンデータセット(多くのAIが利用)
BytespiderByteDanceTikTok/ByteDanceのAI
Applebot-ExtendedAppleApple Intelligenceの学習用
cohere-aiCohereCohereのAI学習用
DiffbotDiffbotナレッジグラフ構築用

AIクローラーを許可する設定

AI検索であなたのコンテンツが引用されるためには、AIクローラーのアクセスを許可する必要があります。以下はすべての主要AIクローラーを許可する設定例です。

# 主要AIクローラーの許可
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: GoogleOther
Allow: /

User-agent: CCBot
Allow: /

User-agent: Applebot-Extended
Allow: /

# 従来の検索エンジン
User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

User-agent: *Allow: / だけでは不十分な場合があります。一部のAIクローラーは、明示的に自分のUser-agent名で許可されていない場合にクロールを控えることがあるためです。

AIクローラーをブロックする設定

特定のAIクローラーにコンテンツを使われたくない場合は、Disallow で制御できます。

特定のAIクローラーのみブロック

# GPTBotだけブロック(他は許可)
User-agent: GPTBot
Disallow: /

User-agent: *
Allow: /

すべてのAIクローラーをブロック

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

# 通常の検索エンジンは許可
User-agent: *
Allow: /

一部のページだけブロック

# AIクローラーには /private/ 以下だけブロック
User-agent: GPTBot
Disallow: /private/
Allow: /

User-agent: ClaudeBot
Disallow: /private/
Allow: /

許可するべきか、ブロックするべきか

許可を推奨するケース

  • ブログやメディアサイト — AI検索で引用されることでトラフィック増加が期待できる
  • ツールやサービスのサイト — AI検索結果で推薦されるチャンス
  • E-E-A-Tを重視するサイト — AIに引用されること自体が権威性のシグナルになりうる
  • GEO対策を行いたいサイト — AIクローラーを許可しなければGEO対策は意味がない

ブロックを検討するケース

  • 有料コンテンツ — 記事の中身がAIの回答に使われると、購読の動機が薄れる
  • 独自データや一次情報 — 競合に無断で利用されるリスク
  • 著作権上の懸念 — AI学習にコンテンツを使われたくない場合

部分的な制御がベスト

多くのサイトにとって、すべて許可 or すべてブロックの二択ではなく、部分的な制御が現実的です。公開コンテンツはAIクローラーに許可しつつ、有料コンテンツや管理画面はブロックするのが合理的な選択です。

robots.txtの確認方法

設定したrobots.txtが正しく機能しているか確認する方法です。

ブラウザで直接アクセス

https://あなたのサイト/robots.txt にアクセスして内容を確認できます。

Google Search Console

Google Search Consoleの「robots.txtテスター」で、特定のURLがブロックされているかどうかを確認できます。ただし、AIクローラー固有のテスターは現時点では提供されていません。

IndexReadyで確認

IndexReadyのGEOスコアリングでは、robots.txtでのAIクローラー許可状況を自動チェックします。GPTBot、ClaudeBot、PerplexityBot等の主要AIクローラーが許可されているかどうかを一目で確認できます。

llms.txtとの違い

robots.txtとよく混同されるのがllms.txtです。

robots.txtllms.txt
目的クロールの許可/拒否サイト情報をAIに提供
対象すべてのクローラーAI/LLM
効果アクセス制御コンテンツ理解の促進
必須度ほぼ全サイトに必要GEO対策をするなら推奨

robots.txtでAIクローラーを許可した上で、llms.txtでサイトの概要を伝える。この2つを組み合わせることで、AI検索での引用可能性が最大化されます。

よくある質問(FAQ)

robots.txtでAIクローラーをブロックすれば、AIの学習に使われませんか?

主要なAI企業(OpenAI、Anthropic、Google等)はrobots.txtのルールを尊重すると公表しています。ただし、robots.txtは技術的な強制力を持たないため、すべてのAIクローラーが従う保証はありません。法的な保護が必要な場合は、利用規約の明記やアクセス制限の導入を検討してください。

User-agent: * の設定だけでAIクローラーも制御できますか?

User-agent: * はすべてのクローラーに適用されるルールです。しかし、AIクローラーの中にはこのワイルドカードルールよりも自分専用のルールを優先するものがあります。確実に制御するなら、各AIクローラーのUser-agent名を明示的に指定することをおすすめします。

Google AI OverviewもGPTBotのようにブロックできますか?

Google AI Overviewは通常のGooglebotがクロールしたデータを使用するため、AI Overview単体をブロックすることはできません。Google-Extended をブロックするとGeminiの学習には使われなくなりますが、AI Overview自体には影響しません。AI Overviewからの引用を防ぐには nosnippet メタタグを使用します。

robots.txtを変更したらすぐに反映されますか?

クローラーがrobots.txtを読み直すタイミングはクローラーによって異なります。Googlebotは通常24時間以内に変更を検出しますが、AIクローラーの反映タイミングは公式に明示されていません。変更後、数日〜1週間程度の猶予を見てください。

あなたのサイトもチェックしてみませんか?

URLを入力するだけで、SEO・GEO対策の状況を無料で診断できます。

無料で採点する