プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

数値データの離散化と概念階層生成の手法は何ですか?


適用可能なデータ範囲が幅広く多様であり、データ値が頻繁に更新されるため、数値属性の概念階層を定義するのは複雑で面倒です。数値データの概念階層生成には、次のようなさまざまな方法があります-

ビニング −ビニングは、定義された数のビンに基づくトップダウン分割手法です。これらの方法は、数の削減と概念階層の生成のための離散化方法としても使用されます。これらの手法を結果のパーティションに再帰的に使用して、概念階層を作成できます。ビニングはクラスデータを使用しないため、教師なし離散化手法です。ユーザーが指定した数のビン、および外れ値の存在の影響を受けやすくなります。

ヒストグラム分析 −ビニングと同様に、ヒストグラム分析はクラスデータを使用しないため、教師なし離散化手法です。ヒストグラムは、属性Aの値をバケットと呼ばれる互いに素な範囲に分割します。たとえば、同じ幅のヒストグラムでは、値は同じサイズのパーティションまたは価格の範囲に分割されます。各バケットの幅は$10です。等頻度ヒストグラムでは、各パーティションに同じ数のデータタプルが含まれるように値がパーティション化されます。

ヒストグラム分析アルゴリズムを各パーティションに再帰的に適用して、マルチレベルの概念階層を自動的に生成できます。事前に指定された数の概念レベルに達すると、手順は終了します。

レベルごとに最小間隔サイズを使用して、再帰的手順を制御することもできます。これは、パーティションの最小幅または各レベルの各パーティションの値の最小数を指定します。

エントロピーベースの離散化 −エントロピーは、一般的に使用される離散化手段です。これは、情報理論と情報獲得の概念に関する先駆的な研究で、クロード・シャノンによって最初に導入されました。

エントロピーベースの離散化は、監視されたトップダウン分割手法です。分割点(属性範囲を分割するためのデータ値)の計算と決定において、クラス分布データを調査します。

クラスター分析 −クラスター分析は、一般的なデータ離散化方法です。クラスタリングアルゴリズムは、Aの値をクラスターまたはグループに分割することにより、数値属性Aを離散化するために適用できます。

クラスタリングは、Aの分布とデータポイントの近さを考慮しているため、高品質の離散化結果を生成できます。クラスタリングを使用して、トップダウン分割戦略またはボトムアップマージ戦略のいずれかに従うことにより、Aの概念階層を生成できます。この場合、各クラスターは概念階層のノードを形成します。


  1. ステガノグラフィの長所と短所は何ですか?

    ステガノグラフィは、他のメッセージ内で秘密にされるべきメッセージの隠蔽を単純化するアプローチです。この結果は、隠されたメッセージ自体の秘密です。ステガノグラフィアプローチは、画像、ビデオファイル、またはオーディオファイルに使用できます。 肉眼では簡単に発明できない文書をオーバーレイすることにより、透かしの中に著作権データを隠す透かしなどのステガノグラフィの使用。これにより、不正行為が回避され、著作権で保護されたメディアの保護が強化されます。 ステガノグラフィの利点 ステガノグラフィの利点は次のとおりです- ステガノグラフィの利点は、メッセージが自分自身に配慮を送信しないことです。どん

  2. データ暗号化の技術は何ですか?

    データ暗号化のいくつかのテクニックは次のとおりです- DES −DESはDataEncryptionStandardの略です。データ暗号化規格(DES)アルゴリズムは、1970年代初頭にIBMによって発明されました。 64ビットブロックのプレーンテキストを受け入れ、情報を暗号化するために64ビットキーを必要とする暗号文に変換します。アルゴリズムは、情報を暗号化および復号化するために同じキーを必要とします。 DESは、デジタルデータを暗号化できる対称鍵アルゴリズムです。キーの長さが56ビットと短いため、DESは安全性が低く、暗号化に基づく現在のほとんどのアプリケーションを保護できません。