プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

K最近傍アルゴリズムとは何ですか?


k最近傍アルゴリズムは、クラスメンバーシップ(Y)と予測子X 1の間の関係の構造に関する仮定を作成しない分類アプローチです。 、X 2 、…。 X n

これは、線形回帰でふりをした線形形式を含む、ふりをした関数形式でのパラメーターの推定を含まないため、ノンパラメトリックアプローチです。このアプローチは、データセット内のデータの予測値間の類似性からデータを引き出します。

k最近傍法の概念は、分類に必要な新しいデータと同じトレーニングデータセット内のkレコードを認識することです。これらの類似した(隣接する)レコードを使用して、新しいレコードをクラスに定義し、これらの隣接するクラス間の主要なクラスに新しいデータを作成できます。これは、この新しいレコードの予測子の値をX 1で示します。 、X 2 、…。 X n

中心的な問題は、予測値に応じてデータ間の距離を計算する方法です。よく知られている距離の尺度はユークリッド距離です。 2つのレコード間のユークリッド距離(X 1 、X 2 、…。 X n )および(U 1 、U 2 、…。 U n )は

$$ \ mathrm {\ sqrt {(X_1-U_1)^ 2 +(X_2-U_2)^ 2 + ... +(X_n-U_n)^ 2}} $$

k-NNアルゴリズムは、いくつかの距離計算(予測される各データとトレーニングセット内の各データの間)に依存するため、計算が安価なユークリッド距離がk-NNで最も一般的です。

いくつかの予測子が持つことができるスケールのバランスをとることができます。ほとんどの場合、予測子はユークリッド距離を計算する前に標準化する必要があります。新しいデータを標準化できる平均と標準偏差はトレーニングデータのものであり、新しいデータはそれらの計算には関与しません。新しいデータなどの検証データも、この計算には含まれません。

定義するデータと現在のレコードの間の距離を計算した後、隣接するレコードのクラスに応じて、分類するレコードにクラスを割り当てるルールが必要です。

最も単純なケースはk=1で、最も近いデータ(最も近い隣人)を探し、新しいデータを最も近い隣人と同じクラスに属するものとして分類します。

トレーニングセットに複数のレコードがある場合、レコードを分類するために単一の最近傍を使用するというこの単純で知覚的な概念が強力になる可能性があることは、驚くべき事実です。 1最近傍設計の誤分類エラーは、各クラスの確率密度関数を正確に理解できる場合、エラーの2倍以下の誤分類率を持つことがわかります。


  1. データウェアハウスの設計は何ですか?

    データウェアハウジングは、複数のソースから情報を収集および管理して、ビジネスに重要なビジネス洞察をサポートできるアプローチです。データウェアハウスは、サポート管理の意思決定を目的として特別に作成されています。 データウェアハウスは、会社の運用データベースとは別に維持されるデータベースを定義します。データウェアハウスシステムは、複数のアプリケーションシステムの統合を可能にします。分析用の統合された履歴レコードの強固なプラットフォームをサポートすることにより、データ処理をサポートします。 データウェアハウスは、リモートベースエリアで定義されたマテリアライズドビューのグループと見なすことができま

  2. ステガノグラフィの用途は何ですか?

    ステガノグラフィは、データを隠す技術であり、埋め込まれたデータの存在を隠すための取り組みです。これは、メッセージの存在ではなくメッセージの内容のみを非表示にする暗号化よりも優れたメッセージ保護方法として機能します。 元のメッセージはキャリア内で表示されていないため、キャリアに表示された変更は明らかではありません。ステガノグラフィにはさまざまな用途があります- ステガノグラフィは、検閲されることなく、またメッセージが妨げられて私たちにさかのぼることを恐れることなく、ニュースやデータを送信するために適用できるソリューションになる可能性があります。 ステガノグラフィを使用して場所にデー