プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

k-NNアルゴリズムの利点は何ですか?


k最近傍アルゴリズムは、クラスメンバーシップ(Y)と予測子X 1の間の関係の構造に関する仮定を作成しない分類アプローチです。 、X 2 、…。 X n

これは、線形回帰でふりをした線形形式を含む、ふりをした関数形式でのパラメーターの推定を含まないため、ノンパラメトリックアプローチです。このメソッドは、データセット内のデータの予測値間の類似性からデータを抽出します。

k-NN法の利点は、その整合性とパラメトリックな仮定の必要性です。膨大なトレーニングセットが存在する場合、これらのアプローチは、各クラスが予測値のいくつかの組み合わせによって特徴づけられる場合に特に効果的です。

たとえば、不動産データベースでは、{住宅の種類、部屋の数、近隣地域、希望価格など}のセットがいくつかある可能性があります。これらの住宅は、売れ行きが速い住宅と、長期間残っている住宅を特徴づけます。業界。

k-NN法の威力を現実的に活用するには、3つの困難があります。

トレーニングデータからパラメーターを計算するのに時間は必要ありませんが(回帰を含むパラメトリックモデルの場合のように)、巨大なトレーニングセットで最近傍を発見する時間は制限される可能性があります。この困難を克服するために、複数の概念が実装されています。主なコンセプトは以下の通りです-

  • 主成分分析などの次元削減手法を使用して縮小されたディメンションで作業することにより、距離の計算にかかる時間を短縮できます。

  • 検索ツリーなどの高度なデータ構造を使用して、最近傍の識別を高速化できます。この方法は、速度を上げるために「最も近い」隣人に落ち着くことがよくあります。インスタンスはバケットを使用しており、各バケット内のデータが互いに近くなるようにデータがバケットに結合されます。

トレーニングセットで大規模と見なされるために必要な複数のデータは、複数の予測子のpとともに指数関数的に増加します。これは、トレーニングセットの量がpで指数関数的に増加しない限り、pで最近傍までの予想距離が大幅に増加するためです。この現象は次元の呪いと呼ばれ、分類、予測、およびクラスタリングのアプローチに関連する基本的な問題です。

k-NNは「怠惰な学習者」です −時間のかかる計算は予測時間まで遅れます。予測されるデータごとに、予測時にのみトレーニングデータの完全なセットからの距離を計算できます。この動作は、複数のデータを同時にリアルタイムで予測するためにこのアルゴリズムを使用することで制約されます。


  1. ステガノグラフィの用途は何ですか?

    ステガノグラフィは、明らかに無害なメッセージ内にメッセージを埋め込むことによってデータを隠す芸術と科学としても表されます。ステガノグラフィは、通常のコンピュータファイルにある役に立たない情報や未使用の情報を復元することで機能します。この隠しデータは、平文または暗号文、さらには画像である可能性があります。 ステガノグラフィは秘密のメッセージを隠しますが、2つの当事者が互いに接続しているという事実は隠しません。ステガノグラフィの手順には、多くの場合、キャリアと呼ばれる輸送媒体で隠されたメッセージを見つけることが含まれます。 秘密のメッセージは、ステガノグラフィチャネルを形成するためにキャリアに

  2. 情報セキュリティにおけるデータ暗号化の利点は何ですか?

    暗号化とは、平文を暗号文に変更する手順です。つまり、テキストを読み取り可能な形式から読み取り不可能な形式に変更して、2者間または許可されていない人物からの会話を保護します。 秘密鍵を使用して、プレーンテキストをすばやく暗号化できます。暗号化を暗号化するためにいくつかの技術とアルゴリズムが作成されています。たとえば、置換手法、転置手法、MD5アルゴリズム、SHAアルゴリズム、IDEAアルゴリズムなど。 データ暗号化は、暗号文と呼ばれるエンコードされた情報に変換することにより、情報の機密性を保護するアプローチです。暗号化時またはそれより早く生成された一意の復号化キーを使用してのみデコードできま