プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

分類はどのように機能しますか?


分類は、データセットに要素を割り当てて、より効率的な予測と分析を支援するデータマイニングアプローチです。分類は通常、バイナリ分類と呼ばれる2つのターゲットクラスがある場合に使用されます。

特にパターン認識の問題で2つ以上のクラスが予測できる場合、これは多項分類として定義されます。ただし、多項分類はカテゴリ応答データに使用できます。この場合、さまざまな要素の中でどのカテゴリに最も確率の高いインスタンスがあるかを予測する必要があります。

データ分類は2段階のフェーズです。最初のフェーズでは、データクラスまたは概念の事前定義されたコレクションを定義する分類子が構築されます。これは学習フェーズ(またはトレーニングフェーズ)であり、分類アルゴリズムは、データベースタプルとそれに関連するクラスラベルで作成されたトレーニングセットを分析または「理解」することによって分類子を開発します。

タプルXは、n次元の属性ベクトルX =(x 1 、x 2 、…x n )、n個の測定値を定義すると、n個のデータベース属性からタプルに作成されます。したがって、A 1 、A 2 、... A n

すべてのタプルXは、クラスラベル属性と呼ばれる別のデータベース属性によって決定されるように、事前定義されたクラスに属していると見なされます。クラスラベル属性は離散値であり、順序付けされていません。すべての値がカテゴリまたはクラスとして提供されるという点でカテゴリです。

トレーニングセットを作成する単一のタプルは、トレーニングタプルとして定義され、分析中のデータベースから選択されます。分類のフレームワークでは、データタプルはサンプル、インスタンス、データポイント、またはオブジェクトとして定義できます。

すべてのトレーニングタプルのクラスラベルがサポートされているため、このステップは教師あり学習と呼ばれます。これは、すべてのトレーニングタプルのクラスラベルが人気がなく、理解するクラスの数やセットを事前に知ることができない教師なし学習(またはクラスタリング)と比較できます。

2番目のフェーズでは、モデルを分類に使用できます。まず、分類器の予測精度を予測します。トレーニングセットを使用して分類器の精度を計算できる場合、分類器はレコードに過剰適合する傾向があるため、この推定は楽観的です(つまり、学習中に、に存在しないトレーニングレコードの特定の異常を組み込むことができます。一般的なデータセットが完了しました。

したがって、テストセットが使用され、テストタプルとそれに関連するクラスラベルが作成されます。これらのタプルは、一般的なデータセットからランダムに選択されます。これらはトレーニングタプルとは別のものであり、分類子の作成には使用されないことを定義しています。


  1. データスクレイピングはどのように機能しますか?

    これを読んでいるので、データスクレイピングの利点と、その自動化された手法により、すべての手作業を自分で行うことなく大量のデータを収集できることを聞いた可能性があります。 しかし、データスクレイピングはどのように正確に機能しますか?そして、それは難しいですか、それとも誰かがデータをスクレイピングする方法を学ぶことができますか? 多分それはあなたが好奇心を持っているからです。または、ビジネス(またはサイドハッスル)にもデータスクレイピングを使用できるかどうかを確認したい場合があります。 いずれにせよ、この短い記事の終わりまでに、データスクレイピングとは何か、スクレイピングプロセスが実際にど

  2. Snapchat の仕組み

    Snapchat がモバイル メッセージング アプリの世界に革命をもたらしたと言っても過言ではありません。 Snapchat が登場する前は、友人とのコミュニケーションにこれほどユニークな方法があるとは誰も夢にも思いませんでした。 Snapchat がもたらす自己破壊的な画像や動画という概念は、通常のメッセージやソーシャル ネットワーキング アプリとはまったく異なります。そしてこれが、2011 年の開始以来、Snapshot が現在 1 億 8000 万人を超える毎日のアクティブ ユーザーを持つ最も人気のあるアプリの 1 つになっている理由です。また、報告によると、ファンのフォローはティーンエ