Web サイトへのクローラーからのアクセスを制御する仕組みに robots.txt があります。検索エンジンのクローラーのサイトへのアクセスを制御するためのファイルのことです。
アクセスを制御することで、クローラーが余計なページをクロールするのを防ぎ、重要なページを中心にクロールさせることを目的としています。
このファイルを書式に沿って記述すれば Google などの検索エンジンのクローラーのアクセスを制御する事ができるのです。
WordPress では自動的に生成されたものが利用されます。自分で作成する場合もFTPソフトを使って、テキストファイルをアップロードするだけなので、自分で設定することはそれほど難しい話ではないのです。
プラグインを使うと面倒な手間なく記述することができるので便利です。
普段管理者が触る事はあまりないと思うが、自分で細かく設定したいという人もいるかもしれません。
[ad2]
robots.txt(ロボッツテキスト)とは?無い場合は?どのような場合に必要か?
robots.txtはクロールをコントロールする目的のみに使用します。
検索エンジンなどのクローラーを制御したい時に利用します。
例えばWebサイトの規模が大きい場合、クローラによってサーバーに負荷がかかり、表示速度などに影響してしまうことがあります。
不要なページへのアクセスを制御することで、クローラは効率的にサイト内を巡回することができサーバーへの負荷が軽減します。
robots.txtでどのようなページを制御する時につかう?
検索エンジンにクロールされる必要のないページやクロールされると困るページに設置します。例えば会員ページ、カートの決済ページ、ユーザーにとって価値のないページなどが有効です。
[ad2]
SEO効果は?
クロール不要なコンテンツをrobots.txtで制御することで、クロールの最適化が見込めます。
クロールの最適化とは、サイト内の重要なページにたくさんクロールさせることです。
サイト内の重要コンテンツはユーザにとっても価値のあるコンテンツである可能性が高く、短期間でSEO改善が見込めるようになります。
[ad2]
なぜRobots.txtファイルを確認しなくてはいけないの?場所は?テスターは?
クロール最適化を行う
インデックス最適化を行う
高評価されるコンテンツを
なぜRobots.txtファイルを確認しなくていけないの?Robots.txtファイルがなかったりするとSEOスコアが悪くなったり検索エンジンの結果ページで上位にランクインしないことがあります。
重要なコンテンツの前に関連性の低いコンテンツがクロールされるリスクがあるからです。
サイトがクロールされる前にファイルを確認することで、インデックスしてもらいたいページだけでなくサイトのすべてのコンテンツがクロールされてしまうというトラブルを防げるのです。
例えば登録フォームやログインページを入力した後でしかアクセスできないページがある場合、robot.txtファイルで除外しなければインデックスされてしまう可能性があります。
場所は?
robots.txt ファイルは、サイトの最上位ディレクトリに配置し、サポート対象プロトコルでアクセスできるようにする必要があります。
Google 検索の場合、サポート対象プロトコルは HTTP、HTTPS、FTP です。
HTTP、HTTPS の場合、クローラは HTTP の条件付きでない GET
リクエストで robots.txt ファイルを取得します。
FTP の場合は、匿名ログインによって標準の RETR (RETRIEVE)
コマンドを使用します。
[ad2]
robots.txtファイルの書き方は?無い場合は?どのような場合に必要か?確認方法や場所!対処!
robots.txtはFTPソフトを使って、テキストファイルで記述します。記述する内容は3つの要素のみです。ファイル名は必ず「robots.txt」にします
・User-Agent
・Disallow
・Sitemap
User-Agent
「User-Agent」とは、クロールを制御するクローラーを指定する項目です。
どのクローラーの動きを制御するかを指定します。たとえば、Googlebotと指定した場合、GoogleのWebクロールを制御することになります。
しかし、基本的には「*」(すべてのクローラー、の意味)で指定して問題はありません。
基本的には、全てのクローラーを対象とする「*(半角アスタリスク)」を打ち込みますが、特定のクローラーだけのクロールを制御したい場合は、特定のクローラーの「ユーザーエージェントトークン」を打ち込みます。
Disallow
「Allow」とは、Disallowで指定しているディレクトリ配下のサブディレクトリ・特定ページのクロールを指示する項目です。
クローラーはデフォルトでサイト内の全てのページにクロールするようにプログラムされているため、Disallow配下のページをクロールしたい時以外は使用しません。
クローラーのアクセスを制御するファイルを指定するものです。Disallowで指定されたファイルやディレクトリはクロールがブロックされます。Disallowで指定がない場合にはクロールが許可されることになるため、
といったように空白になっていれば、すべてのファイルやディレクトリがクロールの対象となります。
- Disallow:/example/
と記載した場合には、このディレクトリ配下がブロックされます。
Sitemap
sitemap.xmlの場所をクローラーに伝えるものです。これを記述しておくとSitemapを積極的に読んでもらえるので、是非記載しておきましょう。
省略も可能とされている項目ですが、記述することで指定したクローラーが早くサイトを巡回してくれる可能性があります。
自社サイトのクローラビリティを高めるためにも記述しておきましょう。サイトマップの例として以下を参考にしてください。
以上を踏まえてrobots.txtのテキストファイルを作ると以下のようになります。
(例)
User-Agent:*
Disallow:/example/
Sitemap:http://aaaaaa.jp/sitemap
robots.txt ファイルとは、どのクローラにサイトのどの部分へのアクセスを許可するかを記述した、シンプルなテキスト ファイルです。たとえば、example.com の robots.txt ファイルは次のようになります。
[ad2]
Robots.txtテスター・確認ツールとは?
Robots.txtテスター・確認ツールとはタイプミス、シンタックスエラー、論理エラーなどの間違いがないか確認し、robots.txtファイルを最適化するためのアドバイスを表示します。Robots.txtファイルにエラーがないか確認するためのツールです。
サイトが正しくクロール・インデックスされるようにし、サイトで最も重要なデータが最初にインデックスされるようにします。
このツールを使えば数秒でレポートが表示されるので、簡単にご利用いただけます。サイトのURLに/robots.txtを付けて入力して確認ボタンをクリックするだけです。
Robots.txtがない
1.まずは、Google Search Console へサイトを追加
以下のサイトを参考にサイトを追加します。
2.次に、robots.txt テスターを使って、robots.txt を設定
以下のサイトを参考に robots.txt を設定します。
1.まずは、Google Search Console へサイトを追加
以下のサイトを参考にサイトを追加します。
2.次に、robots.txt テスターを使って、robots.txt を設定
以下のサイトを参考に robots.txt を設定します。
[ad2]
まとめ
robots.txtなどはGoogleAdsenceに合格するには必要な設置ですね。アフェリエイトなどやるひともGoogleAdsenceは必ず合格したほうが正しいSEOの知識が身に付きますのでうけたほうがよいですね。
コメント