Web検索エンジンとは何ですか?
Web検索エンジンは、Web上のデータを検索する専用のコンピューターサーバーです。ユーザークエリの検索結果は、リストとして復元されます(ヒットと呼ばれます)。ヒットには、Webページ、画像、さまざまな種類のファイルが含まれる可能性があります。
さまざまな検索エンジンがあり、パブリックデータベースまたはオープンディレクトリで利用可能なデータを検索して返します。検索エンジンは、Webディレクトリが人間の編集者によってサポートされているという点で、Webディレクトリとは異なりますが、検索エンジンは、アルゴリズムによって、またはアルゴリズムと人間の入力の組み合わせによって機能します。
Web検索エンジンは大規模なデータマイニングアプリケーションです。検索エンジンのすべての要素で使用されるデータマイニング手法はいくつかあり、クロール(クロールする必要のあるページやクロール頻度の決定など)、インデックス作成(インデックスを作成するページの選択、インデックスの範囲の決定など)にまで及びます。構築)、検索(たとえば、ページのランク付け方法、追加する広告の決定方法、検索結果のカスタマイズ方法や「コンテキストアウェア」の作成方法の決定など)。
検索エンジンのマニエリスムは、データマイニングに対する大きな課題です。まず、大量のデータを管理する必要があります。通常、このようなデータは複数のマシンを使用して処理することはできません。代わりに、検索エンジンはコンピュータークラウドを使用する必要がありました。これには、大量の情報を共同でマイニングする数千または数十万のコンピューターが含まれます。コンピュータークラウドと高分散データセットを介したデータマイニングアプローチのスケールアップは、研究用のアプリケーションです。
第二に、Web検索エンジンはオンラインレコードを処理する必要があります。検索エンジンは、大規模なデータセットでオフラインでモデルを構築する余裕があります。クエリトピックに基づいて事前定義された要素への検索クエリを作成するクエリ分類子を作成できます。モデルがオフラインで構築されているかどうかに関係なく、オンラインのモデルのソフトウェアは、ユーザーのクエリをリアルタイムですばやく解決できる必要があります。
もう1つの課題は、急速に増加するデータストリームでモデルをサポートし、段階的に更新することです。たとえば、新しいクエリは増加し続け、事前定義された要素があり、データ分布が変化する可能性があるため、クエリ分類子を継続的に段階的に維持する必要があります。一部の現在のモデルトレーニング方法はオフラインで静的であるため、そのような方法では使用できません。
第三に、Web検索エンジンは、要求される回数が少ないクエリを処理する必要があります。コンテキスト認識クエリ命令をサポートするために必要な検索エンジンを想定します。ユーザーがクエリを実行すると、検索エンジンは顧客プロファイルとそのクエリ履歴を使用してクエリのコンテキストを推測し、ほんの一瞬でよりカスタマイズされた回答を返します。
-
STREAMとは何ですか?
STREAMは、k-中央値問題のために作成された個別パスの定数要素近似アルゴリズムです。 k-medians問題は、ポイントとそれらが割り当てられているクラスター中心との間の二乗和誤差(SSQ)が最小になるように、N個のデータポイントをk個のクラスターまたはグループにクラスター化することです。アイデアは、同じクラスターに同様のポイントを割り当てることです。これらのポイントは、他のクラスターのポイントとは異なります。 ストリームデータモデルでは、データポイントは1回しか表示できず、メモリと時間は制限されています。高品質のクラスタリングを実装できます。STREAMアルゴリズムは、データストリーム
-
Googleができないものを見つけるための11の最高の深層ウェブ検索エンジン
ほとんどのインターネットユーザーにとって、オンラインの世界はGoogle.comで始まりGoogle.comで終わります。ただし、Googleはウェブ上ですべてを見つけることができません。これは、Googleがアクセスできない深くて目に見えないウェブがあるためです。これが、簡単に入手できない情報を見つけるために特別な検索エンジンが必要な理由です。インビジブルウェブと最高の深層ウェブ検索エンジンについて学ぶために読んでください。 インビジブルウェブとは何ですか? Invisible Webと、深層Web検索エンジンがどのように役立つかを知るには、まずWebの3つの異なるレイヤーについて説明