2007年9月18日火曜日

コンテンツ重複が招く SEO 問題とその解決策

Blog や SNS といった手軽な情報発信ツールや他サイトのコンテンツの取り込み、あるいは他サイトへの提供が簡単にできる RSS フィード技術や関連ツールの広がりが、SEO を行う上であらたな問題を引き起こしている。それが「重複コンテンツ」の問題だ。


重複コンテンツとは、同一コンテンツが複数の URL に存在する状態を指す。検索エンジンは重複したコンテンツは基本的に登録を行うことはない。言い方を変えると、検索結果に同じものを複数表示しない、ということ。

もし同じコンテンツを重複してインデックスしていくと、ある検索クエリに対する検索結果画面に同一内容を持つ異なる URL を複数表示することになり、検索利用者の検索体験の質的低下を招くからだ。

従って Google はもっとも評価が高い、あるいは一定以上の評価を受けたページのみを登録するし、Yahoo! は重複コンテンツと判定すればクロールをしないようになっている。

Web サイト運営者からすれば、希望する検索キーワードで上位表示する大前提として、検索エンジンのデータベースに登録されることは必須条件であり、それが満たされない、あるいは本来意図した - ユーザーを誘導したいと考えたページが表示されない - のであれば大きな問題となる。

しかし、冒頭で述べたような Blog や SNS の存在、RSS フィードによるシンジケーションはもちろん、様々な過程を通じて発生した重複コンテンツによりインデックスに支障をもたらすケースがある。

例えばニュースサイトはブラウザ閲覧用のページとは別に、印刷用のページを用意している場合がある。あるいは数多くの商品点数を抱える Eコマースの場合、「メーカー別」「ブランド別」「用途別」と複数のカテゴリ階層で構成されている場合、各々の階層に同一商品のページが異なる URL で生成されてしまうこともある。

いずれの場合も、全く同じコンテンツが存在することになり、検索エンジンに適切に登録されない問題を招く場合がある。

冒頭で触れた Blog や SNS は第三者による「オリジナルコンテンツのコピー」により重複コンテンツが生まれる。Blog や SNS は手軽にページ生成が可能なため、個人的な記事クリップといった悪意のない目的、あるいはコンテンツ連動広告で金銭を稼ぐことを目的に他サイトのコンテンツを借用してページを作成する場合もあるが、いずれにせよこの場合も重複コンテンツが発生する。

このケースでは、コンテンツ盗用者の運営するサイトがもともとのコンテンツ保有者のサイトよりも評価が高い場合、関連するキーワードで検索した際にコンテンツ盗用者のサイトが先に表示されてしまいトラフィックが奪われる場合もある。

ソーシャルブックマーク(SBM)も時として厄介な問題をもたらすこともある。誰かがページ(これをオリジナルページとする)をブックマークすると、 SBM は当該ページのタイトルと本文の一部を自動的に引用するが、この時点で全く(ほぼ)同じタイトルを持つページが生成されてしまう。

この時、タイトルに含まれる文字列で検索した時にオリジナルページではなく SBM のページが次々と表示されてしまうことがある。

以上、重複コンテンツの存在は検索エンジンへの登録が妨げられるというケースと、それが発展してコンテンツ盗用者にトラフィックを奪われるという問題が発生するケースもある。いずれにしても、Web サイト運営者はこうした問題への対処法も考えなければいけない。

まず第1に、運営サイト内で重複コンテンツが発生しない仕組みを作ることが必要。基本的に1つのコンテンツは1つの URL のみに存在するようにする。システム上、それが回避できない場合はいずれか一方の重複コンテンツをクロール拒否設定することで、クローラが同じコンテンツを巡回しないように設定をする対策が可能である。

例えば印刷用と Web 閲覧用のページはユーザーの Web 体験上避けられないものであるから、これは印刷用を robots.txt などでクロール拒否すればいいわけである。META タグにロボットのクロールを拒否する nofollow、noindex を入れてもいいだろう。

ソーシャルブックマーク対策としては、テキストを掲載しない(例 はてなブックマークの場合)措置をとることも1つの解決策だ。

第2にコンテンツ盗用者対策だが、まずは盗用者に対して警告を行い削除要請をすることを試みる。応じられなければ、検索エンジンに対して該当コンテンツをインデックスから削除することを要請することが可能だ。

デジタルミレニアム著作権法(DMCA 法)に沿って必要な手続きを行うことで、Google も Yahoo! も盗用者のコンテンツをインデックスから排除する作業をしてくれる。

発信した情報を検索エンジンという情報流通システムを通じて必要とするユーザーに円滑に伝達できる環境を構築するためにも、検索エンジンにあわせたコンテンツの配置や管理を考えていく必要がある。

0 件のコメント: