派生モデルはデータマイニングでどのように提示されますか?
分類は、データクラスまたは概念を定義および分類するモデルを検出する手順です。このモデルは、一連のトレーニングデータ(つまり、クラスラベルが有名なデータオブジェクト)の検索に基づいています。モデルは、クラスラベルが匿名であるオブジェクトのクラスラベルを予測できます。
導出されたモデルは、分類ルール(つまり、IF-THENルール)、決定木、数式、ニューラルネットワークなどのいくつかの形式で表すことができます。デシジョンツリーはフローチャートのようなツリーアーキテクチャであり、各ノードは属性値のテストを示し、各ブランチはテストの結果を定義し、ツリーリーフはクラスまたはクラス分布を記述します。
決定木は分類ルールに変換できます。ニューラルネットワークは、分類に使用される場合、一般に、ユニット間に重み付き接続を持つニューロンのような処理ユニットのセットです。単純ベイズ分類、サポートベクターマシン、k最近傍分類など、分類モデルを構築する方法はいくつかあります。
分類予測カテゴリ(離散、順序なし)ラベル、回帰モデルの連続値関数。回帰では、(個別の)クラスラベルの代わりに、欠落している、または使用できない統計データ値を予測できます。
予測は、数値予測とクラスラベル予測の両方を定義します。回帰分析は、数値予測に使用される統計手法ですが、いくつかの手法も存在します。回帰は、利用可能なデータに応じて、分布傾向の特定も取り囲みます。
分類と回帰の前に、関連性分析を行う必要があります。関連性分析では、分類と回帰のプロセスに大幅に適用できる属性を認識しようとします。このような属性は、分類および回帰プロセスで選択されます。関係のない複数の属性があり、検討から許可されない可能性があります。
AllElectronicsのセールスマネージャーとして、販売キャンペーンに対する3種類の反応(良い反応、穏やかな反応、無反応)に基づいて、ストア内の多数のアイテムを定義する必要があるとします。
価格、ブランド、製造場所、タイプ、カテゴリなど、アイテムの説明的な特徴に基づいて、これら3つのクラスのそれぞれのモデルを導出できます。結果として得られる分類では、各クラスを他のクラスから最大限に分析し、データセットの整理されたイメージを提示する必要があります。
デシジョンツリーは、価格を3つのクラスを最もよく区別する個々の要因として識別できます。ツリーはさらに、価格、各クラスのオブジェクトを互いにさらに区別することをサポートする他の機能に、ブランドと製造された場所が含まれていることを明らかにすることができます。このような意思決定ツリーは、特定の販売キャンペーンの影響を学習し、将来、より効率的なキャンペーンを設計するために役立ちます。
-
メタルールはデータマイニングでどのように役立ちますか?
データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。 これは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。 データマイニングはデータサイエンスに似ています。それは、特定の状況で、特定のデータセットに対して、目的を持っ
-
データマイニングの理論的基礎は何ですか?
データマイニングの基礎となるいくつかの理論には、次のものがあります- データ削減 −この理論では、データマイニングの基本は、データ表現を減らすことです。データ削減は、巨大なデータベースでのクエリに対する迅速な近似回答を取得する必要性に応じて、速度と確実性を交換します。 データ削減方法には、特異値分解(主成分分析の背後にある駆動コンポーネント)、ウェーブレット、回帰、対数線形モデル、ヒストグラム、クラスタリング、サンプリング、およびインデックスツリーの開発が含まれます。 データ圧縮 −この理論によれば、データマイニングの基本は、ビット、相関ルール、決定木、クラスターなどの観点からエンコード