クロール」タグアーカイブ

クロール

クロールとは、
ソフトウェアなどが自動的にWebページを巡回する作業のこと。

リンクを辿ってWebサイトを巡回し、
Webページ上の情報を複製・保存して次々にページの収集(インデックス)している。
定期的にクローリングを行うことで、検索エンジンは
Webページに追加・更新された情報も検索することが可能となる。

このようなクローリングを行うためのプログラムを「クローラ」(crawler)
「ロボット」(robot、縮めて「ボット」(bot)とも)、
「スパイダー」(spider)などと呼び、
主に検索エンジンなどで情報を収集するのに利用されている。

タグ

robots.txtとは何か?

robots.txt とは、
検索エンジンにアクセスしクロールしてほしい部分と
そうでない部分を伝えるためのファイルのことです。

robots.txtをサイトのルートディレクトリ置くことで
クロールが不要な部分は robots.txtで回避することができます。

ただ、robots.txtを使用する場合は、決まりがあり、
robots.txt 情報のファイル名は必ず【robots.txt】で
サイトのルートディレクトリに置く必要があります。

そのため、クロールを回避させたいサブドメインを
複数もつサイトであれば、クロールさせたくないサブドメインの
それぞれに、個別の robots.txtファイルを用意する必要があります。

robots.txtの他にも、
検索結果にコンテンツを表示させない方法はいくつあります。
『NOINDEX』を robotsメタタグに追加
『.htaccess』を使ってディレクトリにパスワード設定するなどです。
また過去にGoogleウェブマスターツールを使って
クロールを回避させる情報をもつサブドメインが
すでにクロールされている場合は、コンテンツの削除する必要があります。

robots.txtを使用する際は、サイトやサブドメインの情報のなかで、
クロールされたい情報か?クロールされる必要のない情報か?を考えましょう。
そのうえで、クロールされる必要のない情報は、回避させる対策する必要があります。

タグ , , , , , ,