Robots Exclusion Standard」タグアーカイブ

Robots Exclusion Standard

Robots Exclusion Standardとは、
クローラやボットがウェブサイト全体またはその一部を走査することを防ぐ規約。
検索エンジンのボットなど、
自動でクロールするユーザーエージェントに対して、
サーバー上のアクセス可能な領域を制限するための仕様である。

主に検索エンジンがウェブサイトの内容を分類しアーカイブするために使ったり、
ウェブマスターがソースコードを校正するためにつかうこともある。
直接の関係はないが、
逆にボットを案内する目的のSitemapsと組み合わせて使うこともできる。
Googlebotをはじめとした主要なボットが、この仕様に準拠している。

タグ ,

robots.txtについてのまとめ

robots.txt では、守りきれない慎重に扱うべきコンテンツには、
より安全な方法をいくつも考えましょう。
robots.txtの設置だけでは充分に情報を守ることができません。

会社の顧客情報やサイトの購入者の情報など、
機密事項や慎重に扱うべきコンテンツが
クロールされないよう情報管理は徹底しましょう。
robots.txtの設置だけで情報を管理するのではなく、
別な方法などもいくつか考えておきましょう。

robots.txtだけで情報を管理しないほうがよい理由としては、
いくらクロールできないように設定したURLであっても、
そのURLへのリンクがインターネット上に存在する場合、
検索エンジンはそのURLを参照できるからです。
Robots Exclusion Standardに準拠しない検索エンジンや
不正な検索エンジンなどは、robots.txtの指示に従わないかもしれません。

また、好奇心の強いユーザーの中には、
robots.txtにあるディレクトリやサブディレクトリを見て、
見られたくないコンテンツのURLを推測する人がいるかもしれません。

そうならないためにも、コンテンツの暗号化や.htaccessを使って
パスワードをかけて保護する方が、より確実で安全な手段になります。
情報の漏洩を防ぐには、robots.txt だけではなく、
慎重に扱うべきコンテンツの内容を選別して、何重にも安全な方法を考えましょう。

タグ , ,