プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データ分類とは何ですか?


分類は、データインスタンスのチームメンバーシップを予測するために使用されるデータマイニングアプローチです。これは2段階の手順です。最初のステップでは、データクラスまたはアプローチの所定のセットを定義するモデルが構築されます。モデルは、属性によって定義されたデータベースタプルを考慮して開発されています。

各タプルは、クラスラベル属性と呼ばれる属性の1つによって決定されるように、事前定義されたクラスに属していると見なされます。分類のフレームワークでは、データタプルはサンプル、例、またはオブジェクトとしても定義されます。モデルを開発するために分析されたデータタプルは、トレーニングデータセットを共同で形成します。トレーニングセットを作成する単一のタプルは、トレーニングサンプルとして定義され、サンプル母集団から何気なく選択されます。

各トレーニングサンプルのクラスラベルがサポートされているため、この手順は教師あり学習とも呼ばれます。教師なし学習では、トレーニングサンプルのクラスラベルが匿名であり、学習する複数のクラスが事前にわからない場合があります。

学習したモデルは、分類ルール、決定木、または数式の構造で記述されます。たとえば、ユーザーの信用データのデータベースが与えられると、分類ルールを学習して、ユーザーを最高または公正な信用格付けを持つものとして識別することができます。ルールを使用して、将来のデータサンプルを分類し、データベースの内容を十分に理解することができます。

ホールドアウトアプローチは、クラスラベル付きサンプルのテストセットを適用する単純な手法です。これらのサンプルはランダムに選択され、トレーニングサンプルとは独立しています。特定のテストセットでのモデルの効率は、モデルによって適切に制限されているテストセットサンプルのパーセンテージです。テストサンプルごとに、有名なクラスラベルは、そのサンプルについて学習したモデルのクラス予測と区別されます。

モデルの推定の効率がトレーニングデータセットに依存する場合、学習されたモデルが情報に過剰適合するように影響するため、この推定は楽観的である可能性があります(つまり、完全には存在しないトレーニング情報の特定の異常が組み込まれている可能性があります)サンプル母集団)。したがって、テストセットが使用されます。

  • 学習 −トレーニング情報は分類アルゴリズムによって分析されます。したがって、クラスラベル属性は信用格付けであり、学習したモデルまたは分類子は分類ルールの構造で記述されます。

  • 分類 −テストデータは、分類ルールの効率を測定するために使用されます。効率が許容できるものとして扱われる場合、ルールを使用して新しいデータタプルを分類できます。


  1. データセンターとは何ですか?

    datacenterと綴られることもあるデータセンター (一言)は、多数のコンピュータサーバーと関連機器を含む施設に付けられた名前です。 データセンターは、壁を超えた「コンピュータールーム」と考えてください。会社のユーザー宛てのメール、財務記録、ウェブサイトのデータなど、あらゆる種類のデータを保存できます。 データセンターは何に使用されますか? 一部のオンラインサービスは非常に大きいため、1台または2台のサーバーから実行できません。代わりに、これらのサービスを機能させるために必要なすべてのデータを保存および処理するために、数千または数百万台の接続されたコンピューターが必要です。 たと

  2. 情報セキュリティにおける情報分類とは?

    情報分類は、データを関連するカテゴリに分類する手順です。たとえば、企業内では、財務文書が広報部門の文書と多様であってはなりません。代わりに、それらは独立したフォルダーに保持する必要があり、名前が付けられてアクセスを委託された責任者に限定されます。この方法では、保存されたデータは安全であり、必要なときに簡単に見つけることができます。 情報セキュリティ分類では、情報を最初に認識する必要がありました。組織内の複数のビジネスグループによって作成、保存、および管理されるデータを積極的に発見するには、イニシアチブが必要です。情報を見つけることによって、それは基本的にビジネスを再発見しています。データがど