プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データ変換とは何ですか?


データ変換では、データはマイニングに適した形式に変換または結合されます。データ変換には、次のことが含まれます-

スムージング −データからノイズを除去するために機能する可能性があります。このようなメソッドには、ビニング、回帰、およびクラスタリングが含まれます。

集約 −集計では、要約または集計操作がデータに適用されます。たとえば、日次の売上データを集計して、月次および年次の合計金額を計算できます。このフェーズは通常、複数の粒度でデータを分析するためのデータキューブを作成する際に使用されます。

一般化 −一般化では、低レベルまたは「プリミティブ」(生)データが、概念階層を使用して大規模な概念によって復元されます。たとえば、通りなどのカテゴリ属性は、都市や国などのより大きなレベルの概念に一般化できます。同様に、年齢などの数値属性の値は、若者、中年、高齢者などのより大きなレベルの概念にマッピングできます。

正規化 −正規化では、属性データは、-1.0〜1.0、または0.0〜1.0などの指定された小さな範囲内に収まるようにスケーリングされます。

属性の構築 −マイニングプロセスを容易にするために、特定の属性セットから新しい属性が開発および追加される属性構築。

平滑化はデータクリーニングの一種であり、ユーザーがデータの不整合を修正するための変換を指定するデータクリーニングプロセスで対処されました。集約と一般化は、データ削減の形式として提供されます。属性は、0.0から1.0を含む小さな指定された順序内で減少するように、その値をスケーリングすることによって正規化されます。

正規化は、ニューラルネットワークを含む分類アルゴリズム、または最近傍分類やクラスタリングなどの距離測定に特に役立ちます。分類マイニングにニューラルネットワークのバックプロパゲーションアルゴリズムを使用する場合、トレーニングタプルで測定された各属性の入力値を正規化すると、学習フェーズのスピードアップに役立ちます。

距離ベースの方法の場合、正規化は、最初に広い範囲の属性(たとえば、収入)が最初に小さい範囲の属性(たとえば、バイナリ属性)を上回るのを防ぐのに役立ちます。データの正規化には、次のような多くの方法があります-

最小-最大正規化 −元のデータに線形変換を実装します。 min A およびmaxA は、属性Aの最小値と最大値です。最小-最大正規化は、Aの値vをv にマップします。 [new_min Aの範囲内 、new_max A ]コンピューティングによって

$$ v'=\ frac {v-min_ {A}} {max_ {A} -min_ {A}}(new \ _max_ {A}-new \ _min_ {A})+ new \ _min_ {A} $$

Zスコアの正規化 − zスコア正規化(またはゼロ平均正規化)では、属性Aの値は、Aの平均と標準偏差に基づいて正規化されます。Aの値vは、v '<に正規化されます。 / sup> 計算による

$$ v'=\ frac {v-A ^ {'}} {\ sigma_ {A}} $$

ここで、Aとσ A は、それぞれ属性Aの平均と標準偏差です。この正規化の方法は、属性Aの実際の最小値と最大値が不明な場合、または最小-最大正規化を支配する外れ値がある場合に役立ちます。

10進数のスケーリング − 10進スケーリングによる正規化は、属性Aの値の小数点を変更することによって正規化されます。Aの最大絶対値に基づいて移動される小数点の数。Aの値vは、v '> 計算による

$$ v'=\ frac {v} {10 ^ {j}} $$

ここで、jは、Max(| v ' |)<1。


  1. データセンターとは何ですか?

    datacenterと綴られることもあるデータセンター (一言)は、多数のコンピュータサーバーと関連機器を含む施設に付けられた名前です。 データセンターは、壁を超えた「コンピュータールーム」と考えてください。会社のユーザー宛てのメール、財務記録、ウェブサイトのデータなど、あらゆる種類のデータを保存できます。 データセンターは何に使用されますか? 一部のオンラインサービスは非常に大きいため、1台または2台のサーバーから実行できません。代わりに、これらのサービスを機能させるために必要なすべてのデータを保存および処理するために、数千または数百万台の接続されたコンピューターが必要です。 たと

  2. STREAMとは何ですか?

    STREAMは、k-中央値問題のために作成された個別パスの定数要素近似アルゴリズムです。 k-medians問題は、ポイントとそれらが割り当てられているクラスター中心との間の二乗和誤差(SSQ)が最小になるように、N個のデータポイントをk個のクラスターまたはグループにクラスター化することです。アイデアは、同じクラスターに同様のポイントを割り当てることです。これらのポイントは、他のクラスターのポイントとは異なります。 ストリームデータモデルでは、データポイントは1回しか表示できず、メモリと時間は制限されています。高品質のクラスタリングを実装できます。STREAMアルゴリズムは、データストリーム