プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングにおけるテキストマイニングの分野は何ですか?


テキストマイニングは、テキスト分析とも呼ばれます。これは、簡単な分析のために非構造化テキストを構造化データに変換する手順です。テキストマイニングは自然言語処理(NLP)を適用し、機械が人間の言語を認識して自動的に処理できるようにします。

これは、標準言語のテキストから重要な情報を抽出する手順として定義されています。テキストメッセージ、レコード、電子メール、ファイルを介して生成できる一部のデータは、共通言語のテキストで記述されています。テキストマイニングは通常、そのようなデータから有益な洞察やパターンを引き出すために使用されます。

データマイニングには、次のようなテキストマイニングの領域があります-

情報検索 −情報検索はファイル検索への追加と見なされ、宣言されたテキストは統合するために処理されます。したがって、ドキュメントの取得の後には、テキストの要約手順が続き、ユーザーが正式にクエリを実行します。

IRシステムは、特定の問題に関連する一連のレコードの絞り込みをサポートします。テキストマイニングでは、非常に複雑なアルゴリズムを使用して大量のドキュメントコレクションを作成します。また、IRはドキュメントの数を減らすことで、分析を大幅に進めることができます。

データマイニング −データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。

データマイニングでは、データの隠されたパターンが複数のカテゴリに従って考慮され、有用なデータになります。このデータは、データウェアハウスを含む領域で分析のために集められ、データマイニングアルゴリズムが実行されます。このデータは、価値を削減し、収益を増やす効果的な意思決定の作成を容易にします。

自然言語処理(NLP) −NLPは人間の言語の芸術です。テキストマイニングにおけるNLPの目的は、データ抽出プロセスでシステムを入力として提供することです。

NLPアプリケーションの開発は困難です。なぜなら、コンピューターは通常、人間が特定の、無料で、非常に構造化されたプログラミング言語で「話す」ことを要求するからです。人間のスピーチは、スラング、社会的文脈、地域の方言など、多くの複雑な変数に基づくことができるように、通常は本物ではありません。

情報抽出(IE) −情報抽出は、非構造化データから構造化データを自動的に抽出するタスクです。通常、このアクティビティには、NLPを使用した人間の言語テキストの処理が含まれます。


  1. データマイニングのOLAPツールとは何ですか?

    OLAPツールには次の3つの主要なカテゴリがあります- MOLAP −MOLAPは多次元OLAPを表します。データストレージユニットとしてタプルをサポートします。 MOLAPは、専用のn次元配列ストレージエンジンとOLAPミドルウェアを適用してデータを処理します。したがって、OLAPクエリは、関連する多次元ビュー(データキューブ)に直接アドレス指定することで完了します。 この構造は、トランザクション情報の集計への事前計算に重点を置いているため、クエリの実行パフォーマンスが高速になります。特に、MOLAPは、ロード時に各階層レベルで集計されたメジャーを事前に計算して保存し、これらの値を保

  2. ウェブマイニングの方法論は何ですか?

    Webマイニングは、知識の学習または導出を目的とした、Webベースのデータへの機械学習(データマイニング)アプローチのアプリケーションです。 Webマイニングの方法論は、次の3つの異なる要素のいずれかに定義できます- Web使用状況マイニング − Web使用マイニングは、WebページのWebアクセスデータのセットを有効にする一種のWebマイニングです。この使用状況データは、アクセスされたWebページにつながる方向をサポートします。 このデータは、Webサーバーを介して接続ログに自動的に収集されます。 CGIスクリプトは、リファラーログ、ユーザーサブスクリプションデータ、調査ログなどの有用な