検索エンジン(6)

検索エンジンは、検索結果を表示する元となる情報のデータベースを作るためにインターネット上のWebページを定期的に巡回してたくさんの情報を集めています。その中心となる重要なプログラムが2つありますので、紹介しておきます。

・クローラー
「crawl:這い回る」という意味で、インターネット上を隅々まで這い回って世界中のあらゆるWebページの内容の読み取って情報を集めるプログラムで す。まずは訪問したWebサイト内のリンクをたどってそのサイト内の情報を収集し、それが終わると、次に、Webサイト内の外部リンクをたどって、別のサ イトを訪問していきます。

・インデクサ
クローラーが集めてきたWebページの情報を検索エンジンのデータベースに登録するプログラムです。細かく言うと、Webページのテキストデータを解析し、ワードごとの出現率や出現位置などを分析した上で、その結果をデータベースに格納しています。

タグ , ,