インデクサ」タグアーカイブ

インデクサ

インデクサとは、
プログラミング言語C#でクラスまたは構造体のインスタンスに対して、
配列と同じようにアクセスできるようにするの機能。

インデクサの役割は、その後の様々な処理を容易にし、
高度な検索処理を可能にするための作業を行うことです。
インデクサはデータに中間処理を施すことでプログラムの処理速度を高め、
データベース量を節約することができます。

SEOでもインデクサをよく利用し検索サイトのクローラーが
巡回・収集したWebページのドキュメントを
インデックスに格納する役割を持っています。

インデグサはページやサイト内の情報を、検索アルゴリズムが扱いやすい
データ形式にドキュメントを変換することで、ドキュメントを扱うのに比べ
その後の様々な処理を容易にし、高度な処理を可能にします。

SEO WORD-010

様々なプログラムを用いて、ドキュメントに対して次のような解析作業を行っています。
◎ページ解析やリンク解析を行い、検索アルゴリズムが
 スコアリング時に使用しやすいよう、それらの状態を指標化します。
◎ページ解析を行って、HTMLソース内の検索に
 必要の無い(スクリプト記述部分など)部分を明かにします。
◎形態素解析などによって、文章を単語に切り分け、ページ内にある
 個々の単語が文書内のどの位置に存在するのか、その位置情報を明かにします。

そのドキュメントの解析の結果をもとにして、
情報ブロック(単語・HTML要素など)ごとに、必要な情報の位置や
性質・重要性をデータ化しファイルとしてまとめ、インデックスに格納します。

タグ

検索エンジン(6)

検索エンジンは、検索結果を表示する元となる情報のデータベースを作るためにインターネット上のWebページを定期的に巡回してたくさんの情報を集めています。その中心となる重要なプログラムが2つありますので、紹介しておきます。

・クローラー
「crawl:這い回る」という意味で、インターネット上を隅々まで這い回って世界中のあらゆるWebページの内容の読み取って情報を集めるプログラムで す。まずは訪問したWebサイト内のリンクをたどってそのサイト内の情報を収集し、それが終わると、次に、Webサイト内の外部リンクをたどって、別のサ イトを訪問していきます。

・インデクサ
クローラーが集めてきたWebページの情報を検索エンジンのデータベースに登録するプログラムです。細かく言うと、Webページのテキストデータを解析し、ワードごとの出現率や出現位置などを分析した上で、その結果をデータベースに格納しています。

タグ , ,