プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

主成分分析とは何ですか?


主成分分析は、機械学習の次元削減に使用される教師なし学習アルゴリズムです。これは、直交データのサポートにより、相関のある特徴の観測値を線形に相関のない特徴のコレクションに変換する統計的プロセスです。これらの新しい変換された機能は、主成分として知られています。

これは、探索的データ分析とモデリングの予測に使用される有名なツールです。これは、分散を減らすことによって、特定のデータセットから強力な設計を引き出すためのアプローチです。

PCAは、各属性の分散を処理することによって機能します。これは、高い属性がクラス間の分割を示し、したがって次元が減少するためです。 PCAの実際のアプリケーションには、画像処理、映画推薦システム、さまざまな通信チャネルでの電力割り当ての最適化などがあります。これは特徴抽出方法であるため、重要な変数が含まれ、最も重要でない変数が削除されます。

主成分分析は、Karhunen-LoeveまたはK-L法とも呼ばれます。データを表すのに最適なkn次元の直交ベクトルを検索できます。ここでk≤nです。元のデータははるかに小さな領域に投影されるため、次元が削減されます。代替の小さな変数セットを作成することにより、属性の本質を結び付けます。その後、初期データをこの小さなセットに投影できます。

PCAで使用される次の手順は次のとおりです-

  • 入力データは、各属性が同様の範囲内に収まるように正規化されます。この手順は、大きなドメインの属性が小さなドメインの属性を支配しないようにするのに役立ちます。

  • PCAは、正規化された入力データの基底をサポートするk個の正規直交ベクトルを評価します。これらは、それぞれが他に垂直な方向を指す単位ベクトルです。これらのベクトルは主成分として定義されます。入力データは、主成分の線形セットです。

  • 主成分は、「重要性」または強度の高い順に並べられています。主成分は基本的にデータの新しい軸のセットとして機能し、分散に関する重要な情報を提供します。つまり、並べ替えられた軸は、最初の軸がデータの中で最大の分散を表示し、2番目の軸が次に高い分散を表示するようになっています。

  • コンポーネントは「有意性」の降順で並べ替えられるため、分散の小さいコンポーネントなど、弱いコンポーネントを削除することでデータのサイズを小さくすることができます。最強の主成分を使用すると、元のデータの適切な近似を再構築できるはずです。


  1. OLAPとは何ですか?

    OLAPは、On-LineAnalyticalProcessingの略です。 OLAPは、アナリスト、マネージャー、およびエグゼクティブが、生の情報から実際の次元を反映するように変更された情報のさまざまなビューで、高速で一貫性のあるインタラクティブなアクセスを通じてデータへの洞察を得ることができるようにするソフトウェアテクノロジーの要素です。クライアントが学んだ企業。 OLAPを使用すると、ユーザーはデータやその他の分析クエリのオンライン記述または比較要約を生成できます。これは、分析を目的とした多次元レコードの収集、保存操作、および複製を可能にするソフトウェアおよびテクノロジーの要素を指定し

  2. ドキュメントクラスタリング分析とは何ですか?

    ドキュメントのクラスタリングは、教師なしでファイルを整理するための重要な手法です。ドキュメントが用語ベクトルとして表される場合、クラスタリング手法を適用できます。ドキュメントスペースは、数百から数千に及ぶ大きな次元を持ち続けています。 次元の呪いのために、最初にドキュメントを低次元の部分空間に投影することは理にかなっています。そこでは、ドキュメント空間の意味構造が明確になります。低次元のセマンティック領域では、従来のクラスタリングアルゴリズムを使用できます。 ドキュメントクラスタリング分析にはいくつかの方法があります- スペクトルクラスタリング −スペクトルクラスタリング手法は、最初に元