プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

フォーカスされたWebクローラーのコンポーネントは何ですか?


フォーカスされたWebクローラーには、次のようなさまざまなコンポーネントがあります-

シード検出器 −シード検出器のサービスは、最初のn個のURLをフェッチすることにより、definiteキーワードのシードURLを決定することです。シードページは、PageRankアルゴリズム、ヒットアルゴリズム、またはそれと同じアルゴリズムに応じて識別され、優先度が割り当てられます。

クローラーマネージャー − Crawler Managerは、ハイパーテキストアナラ​​イザーに続くシステムの重要なコンポーネントです。コンポーネントは、グローバルWebからファイルをダウンロードします。 URLリポジトリ内のURLが取得され、クローラーマネージャーのバッファーに作成されます。

URLバッファは優先キューです。 URLバッファのサイズによって異なりますが、Crawler Managerは、ファイルをダウンロードするクローラーのインスタンスを動的に作成します。

より効果的にするために、クローラーマネージャーはクローラープールを生成できます。マネージャーは、クローラーの速度を制限し、クローラー間の負荷を分散することにも責任があります。これは、クローラーを検査することで完了します。

クローラー −クローラーはマルチスレッドJavaコードであり、WebからWebページをダウンロードし、ファイルをドキュメントリポジトリに保存するのに適しています。すべてのクローラーにはキューがあり、クロールされるURLのリストに影響を与えます。クローラーはキューからURLを取得しました。

異なるクローラーは、同様のサーバーへの要求を共有していました。したがって、同様のサーバーにリクエストを送信すると、サーバーが過負荷になります。サーバーは、リクエストを共有しているクローラーから表示される必要のあるリクエストを完了し、応答を楽しみにしています。

サーバーは同期して作成されます。 URLのリクエストが以前に共有されていない場合、リクエストはHTTP構造に転送されます。これにより、クローラーが一部のサーバーに過負荷をかけないようにします。

リンクエクストラクタ −リンクエクストラクタは、ドキュメントリポジトリに存在するファイルから接続を取得します。コンポーネントは、取得したURLに含まれるURLをテストします。検出されない場合は、ハイパーリンクの前後の周囲のテキスト、接続が存在する見出しまたは小見出しが抽出されます。

ハイパーテキストアナラ​​イザー −ハイパーテキストアナラ​​イザーは、リンクエクストラクターからキーワードを取得し、分類法の階層を定義する検索キーワードを使用してメソッドの関連性を検出します。

HTTPプロトコルモジュール − HTTPプロトコルモジュールは、キューからURLが確認されたファイルの要求を共有します。ドキュメントを受信すると、ダウンロードされたドキュメントのURLがタイムスタンプとともにフェッチされたURLに保存され、ドキュメントはドキュメントリポジトリに保存されます。


  1. 情報セキュリティにおける最新のブロック暗号のコンポーネントは何ですか?

    最新のブロック暗号は、平文のmビットブロックを暗号化し、暗号文のmビットブロックを復号化する暗号です。暗号化または復号化の場合、最新のブロック暗号はKビットキーを容易にし、復号化アルゴリズムは暗号化アルゴリズムの逆である必要があり、暗号化と復号化の両方で同様のキーが使用されます。 ブロック暗号は、nビットの平文ブロックで機能し、nビットの暗号文ブロックを作成します。複数の平文ブロックが存在する可能性があり、暗号化を可逆的にするために(つまり、復号化を適用するために)、それぞれが一意の暗号文ブロックを作成する必要があります。このような変換は、リバーシブルまたは非特異として知られています。 ブ

  2. C#のコメントは何ですか?

    コメントはコードの説明に使用されます。コンパイラはコメントエントリを無視します。 C#プログラムの複数行コメントは、以下に示すように/ *で始まり、文字*/で終わります。 複数行のコメント /* The following is a mult-line comment In C# /* /*...*/はコンパイラによって無視され、プログラムにコメントを追加するために配置されます。 1行のコメント // variable int a = 10; 以下は、単一行コメントと複数行コメントを追加する方法を示すサンプルC#プログラムです- 例 using System; namespace Dem