.htaccessとは、
Webサーバの動作をディレクトリ単位で制御するためのアクセス環境設定ファイル。
CGIやSSIなどを実行するための命令や拡張子ごとにファイルタイプを指定する
MIMEタイプの設定やユーザ認証・IPアドレスやドメイン単位でのアクセス制限などを書き込むことができる。
robots.txt では、守りきれない慎重に扱うべきコンテンツには、
より安全な方法をいくつも考えましょう。
robots.txtの設置だけでは充分に情報を守ることができません。
会社の顧客情報やサイトの購入者の情報など、
機密事項や慎重に扱うべきコンテンツが
クロールされないよう情報管理は徹底しましょう。
robots.txtの設置だけで情報を管理するのではなく、
別な方法などもいくつか考えておきましょう。
robots.txtだけで情報を管理しないほうがよい理由としては、
いくらクロールできないように設定したURLであっても、
そのURLへのリンクがインターネット上に存在する場合、
検索エンジンはそのURLを参照できるからです。
Robots Exclusion Standardに準拠しない検索エンジンや
不正な検索エンジンなどは、robots.txtの指示に従わないかもしれません。
また、好奇心の強いユーザーの中には、
robots.txtにあるディレクトリやサブディレクトリを見て、
見られたくないコンテンツのURLを推測する人がいるかもしれません。
そうならないためにも、コンテンツの暗号化や.htaccessを使って
パスワードをかけて保護する方が、より確実で安全な手段になります。
情報の漏洩を防ぐには、robots.txt だけではなく、
慎重に扱うべきコンテンツの内容を選別して、何重にも安全な方法を考えましょう。
robots.txt とは、
検索エンジンにアクセスしクロールしてほしい部分と
そうでない部分を伝えるためのファイルのことです。
robots.txtをサイトのルートディレクトリ置くことで
クロールが不要な部分は robots.txtで回避することができます。
ただ、robots.txtを使用する場合は、決まりがあり、
robots.txt 情報のファイル名は必ず【robots.txt】で
サイトのルートディレクトリに置く必要があります。
そのため、クロールを回避させたいサブドメインを
複数もつサイトであれば、クロールさせたくないサブドメインの
それぞれに、個別の robots.txtファイルを用意する必要があります。
robots.txtの他にも、
検索結果にコンテンツを表示させない方法はいくつあります。
『NOINDEX』を robotsメタタグに追加や
『.htaccess』を使ってディレクトリにパスワード設定するなどです。
また過去にGoogleウェブマスターツールを使って
クロールを回避させる情報をもつサブドメインが
すでにクロールされている場合は、コンテンツの削除する必要があります。
robots.txtを使用する際は、サイトやサブドメインの情報のなかで、
クロールされたい情報か?クロールされる必要のない情報か?を考えましょう。
そのうえで、クロールされる必要のない情報は、回避させる対策する必要があります。