次元削減とは何ですか?
次元削減では、データのエンコードまたは変換を適用して、元のデータの削減または「圧縮」された表現を取得します。情報に障害が発生することなく、圧縮データから元のデータを再構築できる場合、データ削減はロスレスと呼ばれます。再構築されたデータが元のデータの近似値のみである場合、データ削減は不可逆と呼ばれます。
損失を減らすには、次の2つの方法があります-
-
ウェーブレット変換 −離散ウェーブレット変換(DWT)は、データベクトルXに適用されると、ウェーブレット係数の数値的に異なるベクトルX’に変換する線形信号処理技術です。 2つのベクトルは同じ長さです。この手法をデータ削減に使用する場合、各タプルをn次元のデータベクトルと見なすことができます。つまり、𝑋=(x 1 、x 2 、…x n )n個のデータベース属性からタプルに対して行われたn個の測定値を示します。
DWTは、正弦と余弦を含む信号処理技術である離散フーリエ変換(DFT)とほぼ関連しています。一般に、DWTはより優れた非可逆圧縮を実現します。つまり、特定のデータベクトルのDWTとDFTに対して同じ数の係数が保持されている場合、DWTバージョンは元のデータのより正確な近似を提供します。したがって、同等の近似では、DWTはDFTよりも必要なスペースが少なくて済みます。
ウェーブレット変換は、データキューブを含む多次元データに使用できます。これは、最初に変換を最初の次元に適用し、次に2番目の次元に適用するというように行われます。関係する計算の複雑さは、キューブ内のセルの数に対して線形です。
ウェーブレット変換は、スパースまたはスキューされたデータおよび順序付けられた属性を持つデータに対して良好な結果をもたらします。ウェーブレットによる非可逆圧縮は、現在の商用標準であるJPEG圧縮よりも優れていると報告されています。ウェーブレット変換には、指紋画像の圧縮、コンピュータービジョン、時系列データの分析、データクリーニングなど、多くの実際のアプリケーションがあります。
-
主成分分析 −主成分分析は、Karhunen-LoeveまたはK-L法とも呼ばれます。データを表すのに最適なkn次元の直交ベクトルを検索できます。ここでk≤nです。元のデータははるかに小さなスペースに投影されるため、次元が削減されます。代替の小さな変数セットを作成することにより、属性の本質を組み合わせます。元のデータをこの小さなセットに投影できます。
-
データセンターとは何ですか?
datacenterと綴られることもあるデータセンター (一言)は、多数のコンピュータサーバーと関連機器を含む施設に付けられた名前です。 データセンターは、壁を超えた「コンピュータールーム」と考えてください。会社のユーザー宛てのメール、財務記録、ウェブサイトのデータなど、あらゆる種類のデータを保存できます。 データセンターは何に使用されますか? 一部のオンラインサービスは非常に大きいため、1台または2台のサーバーから実行できません。代わりに、これらのサービスを機能させるために必要なすべてのデータを保存および処理するために、数千または数百万台の接続されたコンピューターが必要です。 たと
-
STREAMとは何ですか?
STREAMは、k-中央値問題のために作成された個別パスの定数要素近似アルゴリズムです。 k-medians問題は、ポイントとそれらが割り当てられているクラスター中心との間の二乗和誤差(SSQ)が最小になるように、N個のデータポイントをk個のクラスターまたはグループにクラスター化することです。アイデアは、同じクラスターに同様のポイントを割り当てることです。これらのポイントは、他のクラスターのポイントとは異なります。 ストリームデータモデルでは、データポイントは1回しか表示できず、メモリと時間は制限されています。高品質のクラスタリングを実装できます。STREAMアルゴリズムは、データストリーム