プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

情報検索とは?


情報検索(IR)は、データベースシステムと並行して長年にわたって開発されてきた分野です。構造化データのクエリとトランザクション処理を対象としたデータベースシステムの分野とは異なり、情報検索は、複数のテキストベースのドキュメントからのデータの編成と取得に関係しています。

情報検索システムとデータベースシステムはそれぞれ異なる種類のデータを処理するため、同時実行制御、リカバリ、トランザクション管理、更新など、データベースシステムの問題の一部は通常情報検索システムには存在しません。非構造化ドキュメント、キーワードに基づく近似検索、関連性の概念など、従来のデータベースシステムでは通常発生しない一般的な情報検索の問題がいくつかあります。

豊富なテキストデータのために、情報検索はいくつかのアプリケーションを発見しました。オンライン図書館目録システム、オンライン記録管理システム、および最近開発されたWeb検索エンジンを含むいくつかの情報検索システムが存在します。

一般的なデータ検索の問題は、ユーザーのクエリに応じてドキュメントセット内の関連ドキュメントを見つけることです。これは、関連レコードの例でもありますが、多くの場合、情報ニーズを定義するキーワードです。

これは、中古車を購入するためのデータの検索など、ユーザーがアドホックな(つまり短期的な)データを必要とする場合に最適です。ユーザーが長期的なデータニーズ(たとえば、研究者の関心)を持っている場合、要素がユーザーのデータに関連していると判断された場合、検索システムは、新しく到着したデータ要素をユーザーに「プッシュ」するイニシアチブを取ることもできます。必要です。

テキスト検索の品質を評価するための2つの基本的な尺度は次のとおりです-

精度 −これは、クエリに実際に関連する(つまり、「正しい」応答)取得されたデータのパーセンテージです。正式には

として表されます

$$precision =\ frac {| \ left\{関連する\right\} \ cap \ left\{取得済み\right\} |} {| \ left\{取得済み\right\} |} $$

リコール −これは、クエリに関連し、実際に取得されたレコードのパーセンテージです。正式には

として表されます

$$ recall =\ frac {| \ left\{関連する\right\} \ cap \ left\{取得済み\right\} |} {| \ left\{関連する\right\} |} $$

情報検索システムは、リコールと精度のトレードオフ、またはその逆を行うために必要になることがよくあります。一般的に使用されるトレードオフの1つは、再現率と適合率の調和平均として表されるFスコアです-

$$ F \ underline {} score =\ frac {recall \ timesprecision} {(recall +precision)^ {2}} $$

調和とは、ある測定値を別の測定値に極端に犠牲にするシステムのトラブルを意味します。適合率、再現率、およびFスコアは、取得されたレコードのコレクションの基本的な尺度です。これらの3つの測定値は、取得したセット内のドキュメントの内部ランク付けに影響されないため、2つのランク付けされたファイルのリストを比較するのに一般的には役立ちません。


  1. 情報セキュリティにおけるエンタープライズデータベースのセキュリティとは何ですか?

    エンタープライズセキュリティは、企業の内部または専有のビジネスシークレットと、プライバシー法に関連する従業員およびユーザーデータの両方を含む多面的な懸念事項です。エンタープライズセキュリティは、実際にはデータセンター、ネットワーキング、およびネットワークサーバーの運用を対象としていますが、技術的には人的資源から始めます。 一部のセキュリティ研究者によると、ソーシャルエンジニアリングは、ハッキング攻撃の成功の3分の2を占める基本的な原因です。ソーシャルエンジニアリング攻撃では、人間の説明、従業員の誠実さ、または個人的な騙されやすさの弱点が攻撃者によって悪用され、Webまたはデータリソースにアク

  2. 情報セキュリティにおける暗号化とは何ですか?

    データ暗号化は、情報を読み取り可能な形式からスクランブルされた情報要素に変換する手順です。これは、詮索好きな目が転送中に機密情報を読み取ることを避けるために完了します。暗号化は、ドキュメント、ファイル、メッセージ、またはネットワークを介したさまざまな形式の通信に使用できます。 暗号化は、データがエンコードされ、適切な暗号化キーを持つユーザーのみがアクセスまたは復号化できるセキュリティアプローチです。暗号化されたデータは、暗号化テキストとも呼ばれます。許可なくアクセスしている人や団体には、スクランブルされているか、判読できないように見える可能性があります。 データ暗号化は、悪意のある当事者ま