2007年8月10日金曜日

4大検索エンジンのアルゴリズムの違い

長い時間がかかったが、4大検索エンジンがランキングアルゴリズムの点から見てそれぞれ実際にどう異なるのか、だんだんわかり始めてきた。検索エンジンの中でYahoo!は、相変わらず最も秘密主義だ。Googleのますます複雑化するアルゴリズムについては、最もきちんと文書化されてはいるものの、最も理解されていない。

Yahoo!が2003年4月に独自の検索エンジンを使用し始めたとき※1、おそらくAltavistaやAllTheWeb、Inktomiが持つ技術から最高の機能を取り込んだはずだ。Inktomiは、リンクに重きを置いた最初の大手検索エンジンであり、偏りのない純粋なリンク人気に依存していた。また、これは個人的な意見だが、Altavistaの主な強みは、各ページの内容をまとめ、関連テーマごとに集約する能力にあると思う。この点においても、またその他に点に関しても、Altavistaの実験的な投資家向けサイトRaging Bullはとにかく見事だった。

現在のYahoo!の検索エンジンでは、「ウェブページのテキスト、タイトル、(METAタグを用いた)サイトの説明文の正確さ……(中略)関連リンクなど、そのページ独自の特徴」に基づき、ページをランク付けしている。Yahoo!はスタンフォード大学が特許権を持つのPageRankのアルゴリズムにかなりの興味を示していたものの、(大きな規模で)PageRankを実際に使う人はいないという点で、Ask JeevesのApostolos Gerasoulis氏と同じ見解を持っているようだ。

それにも関わらず(1999年にスタンフォード大学から独立した)Googleは、詳細を説明することなくPageRankを実装していると誇らしげに主張している。PageRankとは、ページの重要性やクオリティの静的評価アルゴリズムで、関連性を動的に評価するために用いられる。Googleでは現在、ランキングを決定するために200以上の「信号」を使用していると説明しているが、Googleの技術に関する最初の論文には、検索が行われた時点におけるページ内外の要素を組み合わせて関連性を決定し、結果として得られる(動的な)関連性のスコアを、あらかじめ決定していた静的なPageRankのスコアと統合する、と明記している。

Ask Jeevesは2001年の9月に、検索エンジンのTeomaとそのHITS(現在はExpertRankに改称)アルゴリズムを獲得している。ExpertRankは、1998年にJon Kleinberg氏が提案したオーソリティーとハブの方法論から発想を得たアルゴリズムだ。ExpertRankでは、検索者のクエリに対し関連するコンテンツを動的にグループ化し、そのグループ内の関係を使用して、最も信頼性が高くユーザーのクエリに関連性の深いページを決定するということになっている。

MSNでは2004年7月になって、ようやく現在の人工知能による検索技術を発表した。MSNの検索結果は、Googleの検索結果に影響を及ぼしているのと同じ要素に影響を受けているようだと、多くの人が指摘しているが、MSNでは彼らのシステムが実際にどのように機能しているのかについて、ほとんど口を閉ざしてきた。MSNのサイトオーナーヘルプでは、リンクも考慮に入れると示唆しているものの、それがどの程度でどのような方法によるのか説明していない。

MSNの説明は以下の通りだ。「MSNの検索ランキングアルゴリズムでは、ページのコンテンツ、被リンクの数やリンク元サイトのクオリティ、キーワードに対するウェブサイトのコンテンツの関連性といった要素を分析する」

しかし、2006年5月に、MicrosoftのMatthew Richardson氏とEric Brill氏、およびMSNのAmit Prakash氏が共同で、「PageRankを超えて:静的ランキングためのマシンの学習能力」という論文を発表した。これら3名の著者たちは、コンテンツの静的な(クエリ非依存型の)順序付けによる新しい方法論を提案している。彼らの説明によると、MSNのRankNetは「アルゴリズムを学習するランク付けマシン」だという。この方法論では、ランクを決定するために用いるページごとの特質を、ページ、ドメイン、アンカーテキストと被リンク(アンカー)、(ブラウジングにおける)人気度の4つのカテゴリに分類し、これにPageRankを加えて5つの要素でランク付けを行なうとしている。

アンカー・カテゴリでは、そのページにしか現われない語句の数や、そのページにリンクしているアンカーテキストの総量などを計測する。

ページ・カテゴリでは、そのページ自体(およびページのURL)に注目し、文書本体内の単語数、単語の使用頻度、その他明らかにされていない6つの要素を計測する。

ドメイン・カテゴリでは、1ページあたりの外部リンクの平均数、ドメインごとのPageRankの平均値などを計測する。

人気度カテゴリの計測は、MSNツールバーをもとに導き出す。ツールバーによるデータ収集は何も新しいものではないが、彼らの論文は僕の知る限り、ツールバーによって収集したユーザーの閲覧履歴を検索ランキングのアルゴリズムに取り入れた最初の技術文書だ。すぐに多くの人々がAlexaのトラフィックランキングの存在を指摘するだろうが、トラフィックランキングは検索クエリを実行するために使用されるものではない。また、Googleがユーザーの閲覧データを取得しているだろうと推測している人も多いが、GoogleのMatt Cutts氏は(個人的な意見として)、もしGoogleツールバーがデータを取得したとしても、そのようなデータを使いたいとは思わないと指摘している。

MSNのRankNetは、それがもし本当にMSNが検索結果ランキング決定するために使用しているアルゴリズムなら、いくつかの意味においてユニークなものだ。まず第1に、RankNetでは、文書テキストなど、たくさんの情報源から得た静的データを統合している点だ。ExpertRankでさえ、静的評価のためにそんなことは行っていない。次に、RankNetではPageRankを基準あるいは土台として使用しているということだ。彼らはRankNetがPageRankと同等に機能すると見込んでいるどころか、PageRank以上に正確な静的評価を提供すると主張している。

そして最後に、RankNetでは、ウェブマスターたちが重要だと考えるものだけでなく、ウェブページを見る側が興味を持つものを検討する。RankNetは、ウェブマスター側からの評価(リンク人気やPageRank)と、ページを見る側からの評価(クリック数に対する閲覧状況に関する人気度)の評価を両方とも組み込んだ最初の検索エンジンアルゴリズムだ。MSNの手法は目新しくて革新的だが、もしMSNがツールバーの閲覧データを本当に追跡しているのなら、多数のIPアドレスにわたって人々がツールバーをだますようになるのも(もしまだやっていないのなら)時間の問題だ。こうした不正行為は、DirectHitのクリック数方式に対して実行された。

いずれMSNは、Googleの手法と同程度に、自分の手法も補足的なフィルタリングに依存しなければならないと理解するに至る可能性がある。しかし、GoogleおよびYahoo!がスパムのフィルタリングに関して非常に積極的と思えるのに対して、MSNにスパムフィルタに関する指摘がほとんどない理由については、前述の論文からわかるかもしれない。MSNが十分な市場シェアを獲得し、スパムコミュニティからこの種の詳細な注目を集めるのかどうかは、現時点ではわからない。

こんなに長くなってごめん。でも僕は基本的なアルゴリズムに関して要約し、できるだけ多くの信頼できるリンクを提供したいと思ったんだ。さて、この話について君の感想は?

0 件のコメント: