プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データ削減とは何ですか?


データマイニングは、大量のデータベースで選択されたデータに適用されます。大量のデータに対してデータ分析とマイニングを行うと、処理に非常に長い時間がかかり、非現実的で実行不可能になります。データ分析の処理時間を短縮できます。データ削減手法を使用して、元のデータの整合性を維持することにより、ボリュームがはるかに小さいデータセットの削減された表現を取得します。データを減らすことで、データマイニングプロセスの効率が向上し、同じ分析結果が得られます。

データ削減は、よりコンパクトに定義することを目的としています。データサイズが小さい場合、高度で計算コストの高いアルゴリズムを適用する方が簡単です。データの削減は、行数(レコード)または列数(ディメンション)の観点から行うことができます。

データ削減には次のようなさまざまな戦略があります-

データキューブの集約 −この方法では、データキューブの構築でデータに集計操作が使用されます。これらのデータには、2002年から2004年までの四半期ごとのAll Electronicsの売上が含まれています。四半期ごとの合計ではなく、年間売上(年間の合計)に関心があります。したがって、データを集約して、結果のデータが四半期ごとではなく、年間の総売上高を要約することができます。結果として得られるデータセットは、分析タスクに不可欠なデータを失うことなく、ボリュームが小さくなります。

属性サブセットの選択 −この方法では、関連性のない、関連性の低い、または冗長な属性またはディメンションを検出して削除できます。分析用のデータセットには数百の属性を含めることができ、そのうちのいくつかはマイニングタスクに無関係であるか冗長である可能性があります。たとえば、販売の通知時にAll Electronicsで人気のある新しいCDを購入する可能性があるかどうかを顧客にアレンジすることがタスクである場合、顧客の電話番号などの属性は、次のような属性とは異なり、無関係である可能性があります。年齢またはmusic_taste。

次元削減 −エンコードメカニズムは、データセットのサイズを縮小するために使用されます。次元削減では、データのエンコードまたは変換を適用して、元のデータの削減または「圧縮」された表現を取得します。情報を失うことなく元のデータを圧縮データから再構築できる場合、データ削減はロスレスと呼ばれます。

数の削減 −データは、パラメトリックモデル(実際のデータではなくモデルパラメーターのみを保存するために必要)を含む代替のより小さなデータ表現、またはクラスタリング、サンプリング、ヒストグラムの使用を含むノンパラメトリック手法によって復元または予測されます。

離散化と概念階層の生成 −この方法では、属性の生データ値が範囲またはより高い概念レベルに置き換えられます。データの離散化は、概念階層の自動生成に非常に有益な数の削減の一形態です。離散化と概念階層の生成は、さまざまな抽象化レベルでデータのマイニングを可能にするという点で、データマイニングの動的なツールです。


  1. データセンターとは何ですか?

    datacenterと綴られることもあるデータセンター (一言)は、多数のコンピュータサーバーと関連機器を含む施設に付けられた名前です。 データセンターは、壁を超えた「コンピュータールーム」と考えてください。会社のユーザー宛てのメール、財務記録、ウェブサイトのデータなど、あらゆる種類のデータを保存できます。 データセンターは何に使用されますか? 一部のオンラインサービスは非常に大きいため、1台または2台のサーバーから実行できません。代わりに、これらのサービスを機能させるために必要なすべてのデータを保存および処理するために、数千または数百万台の接続されたコンピューターが必要です。 たと

  2. シリアル化とは

    最近のプロジェクト更新会議で、私のチームは、シリアライゼーションを使用してこのアプリケーションとの間でデータをやり取りする方法について話しました。 ソフトウェア プロジェクトにもっと関わりたいと考えていたあるエンジニアは、この用語になじみがないと言っていました。 より大規模なプロジェクトに飛び込むまで発生しない、このような重要なプロセスを見落としがちです。ある時点で私がそうであったように、これはこの人に当てはまりました。 だからそれについて書きたかった。その日、私は同僚がシリアライゼーションについて学ぶのを手伝いました。あなたは今日それについて学ぶことになります. シリアライゼーシ