プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データクリーニングとは何ですか?


データクリーニングとは、欠落している値を入力し、ノイズの多いデータを平滑化し、外れ値を分析して削除し、データの不整合を削除することによってデータをクリーンアップすることを定義します。複数の詳細レベルのデータが必要なものと異なる場合があります。たとえば、20〜30、30〜40、40〜50の年齢範囲が必要であり、インポートされたデータには生年月日が含まれます。データを適切なタイプに分割することで、データをクリーンアップできます。

データクリーニングの種類

データクリーニングには次のようなさまざまな種類があります-

  • 欠測値 −欠落している値は適切な値で埋められます。値を入力するには、次の方法があります。

    • タプルに値が欠落している属性がいくつか含まれている場合、タプルは無視されます。

    • 不足している値については、手動で値を入力します。

    • 同じグローバル定数で値を埋めることができます。

    • 属性meanは、欠落している値を埋めることができます。

    • 最も可能性の高い値は、欠落している値を埋めることができます。

  • ノイズの多いデータ −ノイズは、測定された変数のランダムエラーまたは分散です。ノイズを処理するための平滑化方法は次のとおりです-

    • ビニング −これらの方法は、その「近隣」、特にノイズの多い情報の周囲の値を調べることにより、アレンジデータ値を平滑化します。配置された値は、複数のバケットまたはビンに分散されます。ビニングメソッドは値の近傍を参照するため、ローカル平滑化を実装します。

    • 回帰 −回帰を含め、情報を関数に適合させることにより、データを平滑化できます。線形回帰には、一方の属性を使用してもう一方の属性を予測できるように、2つの属性(または変数)に適合する「最適な」線を見つけることが含まれます。重回帰は線形回帰の発展であり、3つ以上の属性が含まれ、データが多次元領域に適合します。

    • クラスタリング −クラスタリングは、外れ値の識別をサポートします。同じ値がクラスターに編成され、クラスターの外にある値は外れ値と呼ばれます。

    • コンピューターと人間による検査の組み合わせ −外れ値は、コンピューターと人間による検査のサポートによっても認識できます。外れ値のパターンは、説明的またはごみである可能性があります。驚異的な価値のあるパターンをリストに出力することができます。

  • 不整合データ −不整合は、さまざまなトランザクション、データ入力中、または複数のデータベースからの情報の統合から生じる可能性があります。一部の冗長性は、相関分析によって認識できます。さまざまなソースからのデータを正確かつ適切に統合することで、冗長性を減らし、回避することができます。


  1. データセンターとは何ですか?

    datacenterと綴られることもあるデータセンター (一言)は、多数のコンピュータサーバーと関連機器を含む施設に付けられた名前です。 データセンターは、壁を超えた「コンピュータールーム」と考えてください。会社のユーザー宛てのメール、財務記録、ウェブサイトのデータなど、あらゆる種類のデータを保存できます。 データセンターは何に使用されますか? 一部のオンラインサービスは非常に大きいため、1台または2台のサーバーから実行できません。代わりに、これらのサービスを機能させるために必要なすべてのデータを保存および処理するために、数千または数百万台の接続されたコンピューターが必要です。 たと

  2. シリアル化とは

    最近のプロジェクト更新会議で、私のチームは、シリアライゼーションを使用してこのアプリケーションとの間でデータをやり取りする方法について話しました。 ソフトウェア プロジェクトにもっと関わりたいと考えていたあるエンジニアは、この用語になじみがないと言っていました。 より大規模なプロジェクトに飛び込むまで発生しない、このような重要なプロセスを見落としがちです。ある時点で私がそうであったように、これはこの人に当てはまりました。 だからそれについて書きたかった。その日、私は同僚がシリアライゼーションについて学ぶのを手伝いました。あなたは今日それについて学ぶことになります. シリアライゼーシ