プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングの特徴は何ですか?


データマイニングには、次のようなさまざまな機能があります-

データ型 −業界でアクセス可能なほとんどのデータマイニングシステムは、統計的、カテゴリ的、および記号的な属性を持つ、フォーマットされたレコードベースのリレーショナルのようなデータを処理します。データは、ASCIIテキスト、リレーショナルデータベースデータ、またはデータウェアハウスデータの形式にすることができます。処理している各システムが処理できる正確な形式をテストすることが不可欠です。

一部のタイプのデータまたはアプリケーションでは、パターンを検索するために特殊なアルゴリズムが必要になる場合があるため、それらの要件は、既成の汎用データマイニングシステムでは管理できません。代わりに、テキストレポート、地理空間データ、マルチメディアデータ、ストリームデータ、時系列データ、生物学的データ、またはWebデータのいずれかをマイニングする、または特定のアプリケーション(金融、小売業界を含む)専用の特殊なデータマイニングシステムを使用できます。 、または電気通信)。

システムの問題 −特定のデータマイニングシステムは、1つまたは複数のオペレーティングフレームワークでのみ実行できます。データマイニングソフトウェアをホストする有名なオペレーティングシステムは、UNIX/LinuxとMicrosoftWindowsです。 Macintosh、OS/2などで実行されるデータマイニングシステムもあります。大規模な市場志向のデータ

大規模な市場志向のデータマイニングシステムは、クライアント/サーバーアーキテクチャを採用することが多く、クライアントはパーソナルコンピューターであり、サーバーは強力な並列コンピューターのコレクションである可能性があります。現在の傾向として、Webベースのインターフェイスをサポートし、入力および/または出力としてXMLデータを有効にするデータマイニングシステムがあります。

データソース −これは、データマイニングシステムが動作する特定のデータ形式を定義します。一部のシステムはASCIIテキストファイルでのみ実行されますが、一部のシステムはリレーショナルデータまたはデータウェアハウスデータで動作し、いくつかのリレーショナルデータソースにアクセスします。

データマイニングシステムは、ODBC接続またはODBC接続用のOLEDBを提供する必要があります。これらは、オープンなデータベース接続、特に、任意のリレーショナルデータ(IBM / DB2、Microsoft SQL Server、Microsoft Access、Oracle、Sybaseなどのデータを含む)およびフォーマットされたASCIIテキストデータにアクセスする機能を提供します。

データマイニングの機能と方法論 −データマイニング機能は、データマイニングシステムの心臓部を形成します。一部のデータマイニングシステムは、分類などの1つのデータマイニング機能のみをサポートします。他の人は、概念の説明、発見主導のOLAP分析、関連マイニング、リンケージ分析、統計分析、分類、予測、クラスタリング、異常分析、類似性検索、シーケンシャルパターン分析、ビジュアルデータマイニングなど、複数のデータマイニング機能を支援できます。

特定のデータマイニング機能(分類を含む)に対して、一部のシステムは1つの方法しか提供できませんが、他のシステムはさまざまな方法(意思決定ツリー分析、ベイジアンネットワーク、ニューラルネットワーク、サポートベクターマシンなど)を提供できます。ルールベースの分類、k最近傍法、遺伝的アルゴリズム、事例ベースの推論)。

複数のデータマイニング機能と機能ごとの複数のメソッドを提供するデータマイニングシステムは、より高い柔軟性と分析能力でユーザーをサポートします。問題によっては、ユーザーがいくつかの異なるマイニング機能を試したり、いくつかを組み合わせたりする必要がある場合があります。また、さまざまな種類のデータに対して、さまざまな方法が他の方法よりも効率的です。


  1. データマイニングの外れ値の種類は何ですか?

    データマイニングにはさまざまな種類の外れ値があります- グローバル外れ値 −特定のデータセットでは、データオブジェクトが他の情報セットから本質的に逸脱している場合、そのデータオブジェクトはグローバルな外れ値です。グローバル外れ値はポイント異常として知られており、最も簡単なタイプの外れ値です。ほとんどの外れ値の検出方法は、グローバルな外れ値を発見することを目的としています。 グローバルな外れ値を特定できます。重要な問題は、問題のアプリケーションに関する偏差の適切な測定値を見つけることです。いくつかの測定値が提案されており、これらに応じて、外れ値の検出アプローチは複数のカテゴリに分割されます。

  2. プライバシーを保護するデータマイニングの方法は何ですか?

    プライバシー保護データマイニングは、データマイニングにおけるプライバシーセキュリティに対応するデータマイニング研究のアプリケーションです。これは、プライバシーが強化された、またはプライバシーに配慮したデータマイニングと呼ばれます。基本的な機密データ値を開示せずに、真のデータマイニング結果を取得することを扱います。 ほとんどのプライバシー保護データマイニングアプローチでは、データにさまざまな形式の変換を使用してプライバシー保護を実装します。一般に、このような方法では、プライバシーを維持するために説明の粒度が低くなります。 たとえば、単一のユーザーからユーザーグループにデータを一般化できます。