プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングモデルの種類は何ですか?


データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。

データマイニング技術を使用して、記述的プロファイリング、指示されたプロファイリング、予測などの3種類のタスク用の3種類のモデルを作成できます。

記述的プロファイリング −記述モデルは、レコードの内容を定義します。出力は、何が起こっているかを定義する複数のチャートまたは数値またはグラフィックです。仮説検定は記述モデルを作成します。言い換えれば、モデルの構築時に、指示されたプロファイリングと予測の両方が目的を念頭に置いています。

プロファイリングモデルでは、焦点は入力と同様の時間枠からのものです。予測モデルでは、焦点は次の時間枠からです。予測は、ある期間のデータで、次の期間の結果を定義できる設計を検出することを定義します。プロファイリングと予測の区別を強化する理由は、モデリング方法論、特にモデルセットの形成における時間の分析との関連があるためです。

直接プロファイリング −プロファイリングは、多くの問題に対するよく知られたアプローチです。高度なデータ分析を行う必要はありません。たとえば、調査は顧客プロファイルを作成する一般的な方法の1つです。調査は、顧客と見込み客がどのように見えるか、または少なくとも調査回答者が質問に答える方法を明らかにします。

プロファイルは、多くの場合、地理的な場所、性別、年齢などの人口統計変数に基づいています。広告はこれらの同じ変数に従って販売されるため、人口統計プロファイルは直接メディア戦略に変わる可能性があります。

予測 −プロファイリングは、過去のデータを使用して、過去に何が起こったかを記述します。予測はさらに一歩進んでいます。予測では、過去のデータを使用して、将来何が起こりそうかを予測します。これは情報の動的な使用です。

低い保管残高とCD所有権の相関関係は、CD所有者のプロファイルでは有益ではありませんが、高い保管残高を持つことは、(他の指標と組み合わせて)将来のCD購入の予測因子となる可能性があります。

予測モデルを構築するには、モデルの入力または予測子とモデルの出力(予測対象)を時間的に分離する必要があります。このパーティションがサポートされていない場合、モデルは機能しません。


  1. データマイニングの外れ値の種類は何ですか?

    データマイニングにはさまざまな種類の外れ値があります- グローバル外れ値 −特定のデータセットでは、データオブジェクトが他の情報セットから本質的に逸脱している場合、そのデータオブジェクトはグローバルな外れ値です。グローバル外れ値はポイント異常として知られており、最も簡単なタイプの外れ値です。ほとんどの外れ値の検出方法は、グローバルな外れ値を発見することを目的としています。 グローバルな外れ値を特定できます。重要な問題は、問題のアプリケーションに関する偏差の適切な測定値を見つけることです。いくつかの測定値が提案されており、これらに応じて、外れ値の検出アプローチは複数のカテゴリに分割されます。

  2. データの整合性の種類は何ですか?

    データベースの整合性は、格納された情報の有効性と整合性を定義します。整合性は、一般に、データベースが違反することを許可されていない整合性ルールである制約の観点から定義されます。制約は、各属性に適用することも、テーブル間の関係に適用することもできます。 整合性制約により、許可されたユーザーがデータベースに加えた変更(更新の削除、挿入)によってデータの整合性が失われることはありません。したがって、整合性制約はデータベースへの偶発的な損傷を防ぎます。 データの整合性には、次のようなさまざまなタイプがあります- 論理的整合性 −リレーショナルデータベースでは、論理的な一貫性により、いくつかの