プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

Webマイニングのページランクアルゴリズムとは何ですか?


PageRankは、人間の興味に注意を払いながら、Webページを客観的かつ機械的に評価するための方法です。 Web検索エンジンは、経験の浅いクライアントや従来のランキングサービスを操作するページで整理する必要があります。 Webページの複製可能な性質をカウントするいくつかの評価方法は、操作の影響を受けません。

タスクは、Webのハイパーリンク構造を利用して、すべてのWebページのグローバルな重要度ランキングを作成することです。このランキングはPageRankと呼ばれます。

Webのメカニズムは、約1億5000万のノード(Webページ)と17億のエッジ(ハイパーリンク)を持つグラフに依存しています。 WebページAとBがページCにリンクしている場合、AとBはCのバックリンクと呼ばれます。一般に、高度にリンクされたページの方が重要です。したがって、それらはより多くの被リンクを持ち、重要な被リンクは量が少なくなります。

たとえば、Yahooからの個々の被リンクを含むWebページは、未知のサイトまたはプライベートサイトからの複数の被リンクを含むページよりも上位にランク付けする必要があります。バックリンクのランクの合計が大きすぎる場合、Webページは巨大なランクになります。

以下は、PageRankの簡略化されたバージョンです。u、vをWebページとします。したがって、Buをuを指すページのグループとします。さらに、Nvをvからの複数のリンクとします。c<1を正規化の係数とします。 PageRank-

の簡略化された解釈である単純なランキングRを記述できます。

$$ \ mathrm {R(u)\:=\:c \ displaystyle \ sum \ Limits_ {u \ in {Bu}} \ frac {R(v)} {N_v}} $$

ページのランクは、前方接続間で均等に分割され、マークされたページのランクにも提供されます。方程式は再帰的ですが、この単純化された関数には問題があります。

2つのWebページが相互にポイントしているが、他のページはポイントしておらず、他のWebページが一方をポイントしている場合、反復中にループが生成されます。このループはランクを組み立てますが、ランクを共有することはありません。アウトエッジのないグラフのループによって形成されるこのトラップは、ランクシンクと呼ばれます。

ページランクアルゴリズムは、データベースからのすべてのURLを数値に変換することから始まります。次のフェーズでは、整数IDを使用して各ハイパーリンクをデータベースに保存し、Webページを認識します。反復は、リンク構造を親IDでソートし、ぶら下がっているリンクを削除した後に開始されます。

コンバージェンスを高速化するには、最適な初期割り当てを選択する必要があります。現在のタイムステップからの重みはメモリに保持され、前の重みは線形時間でディスクにアクセスされます。重みが収束した後、ぶら下がっている接続が挿入され、ランキングが再計算されます。計算は適切に実装されますが、収束基準を緩和し、より効果的な最適化アプローチを使用することで、より迅速に行うことができます。


  1. Webマイニングのアプリケーションは何ですか?

    Webマイニングは、データマイニング技術を使用して、Webベースのレコードとサービス、サーバーログ、およびハイパーリンク。 Webマイニングは、データをグループ化して分析し、重要な洞察を受け取ることで、Web情報のデザインを発見することを目的としています。 Webマイニングは、適応されたデータマイニング手法をWebに適用するものと広く見なすことができますが、データマイニングは、知識発見プロセスに固定されたほとんどの構造化データのパターンを見つけるためのアルゴリズムのアプリケーションとして表されます。 ウェブマイニングには次のようなさまざまなアプリケーションがあります- Webマイニング

  2. Web使用マイニングとは何ですか?

    Web使用状況マイニングは、ウェブログデータから有用なデータ、情報、知識を引き出すために使用され、Webページのユーザーアクセスデザインを特定するのに役立ちます。 ウェブリソースの管理であるマイニングでは、個人がウェブサーバーのログとして構成されたウェブサイトの訪問者のリクエストのデータについて考えています。一連のWebページのコンテンツとメカニズムはページの作成者の意図に従いますが、単一のリクエストは、ユーザーがこれらのページをどのように表示するかを示します。 Web使用マイニングは、ページの設計者によって提案されなかった関係を開示する可能性があります。 Webサーバーは通常、Webペー