データマイニングのコンポーネントは何ですか?
データマイニングは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。
データマイニングは学際的な分野であり、データベースシステム、統計、機械学習、視覚化、データサイエンスなどの一連の分野の集合体です。これは、使用されるデータマイニング手法に基づいており、ニューラルネットワーク、ファジーおよびラフ集合理論、知識表現、帰納論理プログラミング、高性能コンピューティングなど、他の分野のアプローチを使用できます。
マイニングするデータの種類または特定のデータマイニングアプリケーションで確立され、データマイニングシステムは、空間データ分析、データ検索、パターン識別、画像分析、信号処理、コンピューターグラフィックス、ネットワークテクノロジー、経済学、ビジネス、バイオインフォマティクス、または心理学。
データマイニングクエリ言語は、これらのプリミティブを組み込むように設計できるため、ユーザーはデータマイニングシステムに柔軟に接続できます。データマイニングクエリ言語は、ユーザーフレンドリーなグラフィカルインターフェイスを構築できる権限をサポートしています。これにより、データマイニングシステムと他のデータシステムとの通信、および完全なデータ処理環境との統合が促進されます。
データマイニングは、データの特性評価から進化の分析まで、幅広い機能を保護するため、包括的なデータマイニング言語を設計することは困難です。各タスクにはいくつかの要件があります。効果的なデータマイニングクエリ言語の設計には、さまざまなタイプのデータマイニングタスクの能力、制限、および基礎となる構造についての幅広い学習が必要でした。
データマイニング機能は、データマイニングタスクで検出する必要のあるパターンのタイプを定義するために使用されます。一般に、データマイニングタスクは、記述的タスクと予測的タスクの2つのタイプに分類できます。記述的マイニングタスクはデータベース内のデータの共通機能を定義し、予測的マイニングタスクは現在の情報を推論して予測を作成します。
データマイニングの主な構成要素は次のとおりです-
- データベース −これは、データベース、データウェアハウス、スプレッドシート、およびデータのクリーニングと統合の手法を実装できる別の種類のデータリポジトリの1つまたはセットです。
- データウェアハウスサーバー −このコンポーネントは、データウェアハウスからのユーザーの要求に基づいて関連するレコードをフェッチします。
- ナレッジベース −興味深いパターンを発見するために使用される知識ドメインです。
- データマイニングエンジン −分類、関連付け、クラスター分析などのタスクを実行するために使用される機能モジュールを使用します。
- パターン評価モジュール −このコンポーネントは、データマイニング構造と通信する興味深い指標を使用して、興味深いパターンに向けて検索をターゲットにします。
- ユーザーインターフェース −このインターフェースにより、ユーザーは、グラフィカルユーザーインターフェースを介してデータマイニング機能またはクエリを記述し、システムと対話できます。
-
データマイニングの外れ値の種類は何ですか?
データマイニングにはさまざまな種類の外れ値があります- グローバル外れ値 −特定のデータセットでは、データオブジェクトが他の情報セットから本質的に逸脱している場合、そのデータオブジェクトはグローバルな外れ値です。グローバル外れ値はポイント異常として知られており、最も簡単なタイプの外れ値です。ほとんどの外れ値の検出方法は、グローバルな外れ値を発見することを目的としています。 グローバルな外れ値を特定できます。重要な問題は、問題のアプリケーションに関する偏差の適切な測定値を見つけることです。いくつかの測定値が提案されており、これらに応じて、外れ値の検出アプローチは複数のカテゴリに分割されます。
-
プライバシーを保護するデータマイニングの方法は何ですか?
プライバシー保護データマイニングは、データマイニングにおけるプライバシーセキュリティに対応するデータマイニング研究のアプリケーションです。これは、プライバシーが強化された、またはプライバシーに配慮したデータマイニングと呼ばれます。基本的な機密データ値を開示せずに、真のデータマイニング結果を取得することを扱います。 ほとんどのプライバシー保護データマイニングアプローチでは、データにさまざまな形式の変換を使用してプライバシー保護を実装します。一般に、このような方法では、プライバシーを維持するために説明の粒度が低くなります。 たとえば、単一のユーザーからユーザーグループにデータを一般化できます。