プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データ離散化とは何ですか?


データ離散化手法を使用すると、属性の範囲を間隔に分割することにより、特定の連続属性の値の数を減らすことができます。間隔ラベルを使用して、実際のデータ値を復元できます。間隔ラベルの数が少ない連続属性の複数の値を復元できるため、元の情報が減少して単純化されます。

これにより、マイニング結果の簡潔で使いやすい知識レベルの表現が可能になります。離散化手法は、クラスデータを使用するかどうかや、進行する方向(トップダウンとボトムアップ)など、離散化がどのように実装されているかによって分類できます。離散化プロセスがクラスデータを使用する場合、それは教師あり離散化であると言えます。したがって、教師なしです。

プロセスが最初に1つまたはいくつかのポイント(分割ポイントまたはカットポイントと呼ばれる)を検出して属性範囲全体を分割することから始まり、その後、結果の間隔でこれを再帰的に継続する場合、トップダウンの離散化または分割と呼ばれます。

ボトムアップの離散化またはマージでは、すべての連続値を潜在的な分割点と見なすことから始め、近隣の値をマージして間隔を形成することで一部を削除し、このプロセスを結果の間隔に再帰的に適用できます。離散化は、属性に再帰的に実装して、概念階層と呼ばれる、属性値の階層的または多重解像度の分割をサポートできます。

概念階層は、複数レベルの抽象化でのマイニングに役立ちます。特定の数値属性の概念階層は、属性の離散化を表します。概念階層を使用して、低レベルの概念(属性年齢の数値を含む)を高レベルの概念(青年、中年、または高齢者を含む)で収集および復元することにより、データを減らすことができます。このようなデータの一般化によって詳細は隠されますが、一般化されたデータはより意味があり、実行が簡単になる可能性があります。

これにより、一般的な要件である、いくつかのマイニングタスク間でのデータマイニング結果の一貫した説明が提供されます。また、削減されたデータセットでのマイニングは、必要な入出力操作が少なくて済み、より高度で一般化されていないデータセットでのマイニングよりも優れています。これらの利点により、離散化手法と概念階層は、通常、マイニング中ではなく、前処理ステップとしてデータマイニングの前に使用されます。

いくつかの離散化方法を使用して、数値属性の概念階層を自動的に生成または動的に改良できます。さらに、カテゴリ属性の多くの階層はデータベース設計内で暗黙的であり、スキーマ定義レベルで自動的に表すことができます。


  1. データセンターとは何ですか?

    datacenterと綴られることもあるデータセンター (一言)は、多数のコンピュータサーバーと関連機器を含む施設に付けられた名前です。 データセンターは、壁を超えた「コンピュータールーム」と考えてください。会社のユーザー宛てのメール、財務記録、ウェブサイトのデータなど、あらゆる種類のデータを保存できます。 データセンターは何に使用されますか? 一部のオンラインサービスは非常に大きいため、1台または2台のサーバーから実行できません。代わりに、これらのサービスを機能させるために必要なすべてのデータを保存および処理するために、数千または数百万台の接続されたコンピューターが必要です。 たと

  2. シリアル化とは

    最近のプロジェクト更新会議で、私のチームは、シリアライゼーションを使用してこのアプリケーションとの間でデータをやり取りする方法について話しました。 ソフトウェア プロジェクトにもっと関わりたいと考えていたあるエンジニアは、この用語になじみがないと言っていました。 より大規模なプロジェクトに飛び込むまで発生しない、このような重要なプロセスを見落としがちです。ある時点で私がそうであったように、これはこの人に当てはまりました。 だからそれについて書きたかった。その日、私は同僚がシリアライゼーションについて学ぶのを手伝いました。あなたは今日それについて学ぶことになります. シリアライゼーシ