プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングの単一属性エバリュエーターとは何ですか?


単一属性エバリュエーターでは、ランカー検索メソッドとともに使用して、ランク付けされたリストを作成し、そこからランカーが特定の番号を破棄することができます。ランクサーチメソッドでも使用されます。

リリーフ属性の評価はインスタンスベースです −インスタンスをランダムにサンプリングし、等しいクラスと複数のクラスの隣接するインスタンスをチェックします。これは、離散および連続クラスデータで機能します。パラメータは、サンプリングする複数のインスタンス、チェックするさまざまなネイバー、距離でネイバーに重みを付けるかどうか、および距離とともに重みがどのように減衰するかを実行する指数関数を定義します。

InfoGain属性評価 −クラスに関する情報ゲインを計算することによって属性を計算します。最初にMDLベースの離散化アプローチを利用して数値属性を離散化します。このアプローチは、次の3つとともに、欠落を独立した値と見なすか、頻度に比例して他の値の間でカウントを分散させることができます。

カイ2乗属性評価 −クラスに関するカイ2乗統計量を計算することにより、属性を計算します。

ゲイン比属性評価 −クラスに関するゲイン比を計算することで属性を計算します。

対称的なUncert-属性の評価 −クラスに関する対称的な不確実性を計算することによって属性を計算します。

OneRAttribute評価 −OneR分類器で採用されているクリーンな精度測定が必要です。 OneRのように、計算のためにトレーニングデータが必要になる場合もあれば、内部交差検定を使用する場合もあります。複数のフォールドはパラメーターです。 OneRの単純な離散化アプローチを選択できます-最小バケットサイズはパラメータです。

SVM-属性評価 −線形サポートベクターマシンによる再帰的特徴除去を使用して属性を計算します。属性は、係数のサイズに応じて1つずつ選択され、全員の後に再学習されます。

実際、特定の数の属性が残るまで比率を使用できます。その後、固定数方式に切り替えて、多くの属性をすばやく削除し、残りの各属性をより集中的に検討します。

複雑さ、イプシロン、許容誤差、使用されるフィルタリング方法など、さまざまなパラメーターがサポートベクターマシンに渡されます。

主成分分析と潜在意味解析は、属性のセットを変換します。主成分の場合、新しい属性は固有値の順にランク付けされます。オプションで、分散の特定の割合(デフォルトでは95%)を説明するのに十分な固有ベクトルを選択することにより、サブセットが選択されます。最後に、縮小されたデータを元のスペースに戻すことができます。

潜在意味解析は、トレーニングデータに特異値分解を適用します。特異値分解は主成分分析に関連しています。どちらも元の属性値の線形の組み合わせである方向を生成しますが、属性相関または共分散行列ではなく、元のデータ値を含む行列から計算されるという点で異なります。


  1. 空間データマイニングのプリミティブは何ですか?

    空間データマイニングは、データマイニングを空間モデルに適用することです。空間データマイニングでは、アナリストは地理データまたは空間データを使用して、ビジネスインテリジェンスまたはさまざまな結果を作成します。これには、地理データを関連性のある有益な形式に変換するための特定の方法とリソースが必要でした。 空間データマイニングには、パターンの認識や、研究プロジェクトを推進する質問に関連するオブジェクトの発見など、いくつかの課題があります。アナリストは、GIS / GPSツールまたは同様のシステムを利用して、大規模なデータベース領域またはその他の完全に巨大なデータセットで表示し、関連するデータのみを

  2. 属性とは何ですか?

    属性はデータフィールドであり、データオブジェクトの特性を定義します。名詞の属性、次元、特徴、および変数は、文献で対応して使用されています。ディメンションは通常、データウェアハウジングで使用されます。機械学習の文献は、機能という用語を使用することに影響を与えますが、統計家はメソッドsvariableを好みます。 データマイニングとデータベースの専門家は通常、属性という用語を使用します。ユーザーオブジェクトを定義する属性には、たとえば、顧客ID、名前、住所などがあります。特定の属性の観測値は、観測と呼ばれます。 属性のセットは、特定のオブジェクトを定義できます。これは、属性ベクトル(または特徴