プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングの推定方法は何ですか?


10分割交差検定は、特定のデータセットの学習スキームのエラー率を測定する標準的な方法です。信頼できる結果を得るには、10倍の交差検定を行います。 Leave-one-out相互検証とブートストラップの2つの方法があります。

Leave-One-Out相互検証

Leave-one-out交差検定は、公然とn分割交差検定です。ここで、nはデータセット内の複数のインスタンスです。各インスタンスは順番に省略され、学習スキームは残りのすべてのインスタンスでトレーニングされます。残りのインスタンスの正確さによって計算されます。つまり、成功または失敗の場合は1または0になります。データセットの各グループに1つずつ、n個の判断すべての結果が平均化され、その平均が最後の誤差推定を定義します。

このプロセスは、2つの理由から興味深いものです。まず、可能な限り多くの記録をそれぞれの場合のトレーニングに使用できます。これにより、分類子が本物である可能性が高くなると考えられます。

第二に、手順は決定論的です-ランダムサンプリングは含まれません。それを10回繰り返したり、まったく繰り返したりしても意味がありません。毎回同じ結果が得られます。これに対抗するために、学習フェーズ全体をn回実行する必要があり、これは一般に高いデータセットでは実行不可能であるため、高い計算コストが発生します。

ブートストラップ

ここで説明する2番目の推定方法であるブートストラップは、置換を伴うサンプリングの統計的手順に基づいています。以前は、トレーニングまたはテストセットを形成するためにデータセットからサンプルが取得されるたびに、置き換えなしで抽出されていました。

ほとんどの学習スキームは同じインスタンスを2回使用でき、トレーニングセットに2回存在する場合、学習結果に違いが生じます。ブートストラップの考え方は、データセットを置換してサンプリングし、トレーニングセットを形成することです。 0.632ブートストラップと呼ばれる、不思議なことに(ただし、すぐに明らかになる理由で)特定のバリアントについて説明します。

このために、n個のインスタンスのデータセットがn回サンプリングされ、復元されて、n個のインスタンスの異なるデータセットが提供されます。この2番目のデータセットの一部の要素は(ほぼ確実に)繰り返されるため、元のデータセットには選択されていないインスタンスがいくつか存在する必要があります。これらをテストインスタンスとして使用します。

トレーニングセットで学習システムをトレーニングし、テストセットでそのエラーを計算することによって得られる数値は、トレーニングセットのサイズはnですが、インスタンスの63%しか含まれていないため、真のエラー率の悲観的な推定値になります。これは、たとえば、10倍の交差検定で使用される90%と比較すると、それほど多くはありません。


  1. 空間データマイニングのプリミティブは何ですか?

    空間データマイニングは、データマイニングを空間モデルに適用することです。空間データマイニングでは、アナリストは地理データまたは空間データを使用して、ビジネスインテリジェンスまたはさまざまな結果を作成します。これには、地理データを関連性のある有益な形式に変換するための特定の方法とリソースが必要でした。 空間データマイニングには、パターンの認識や、研究プロジェクトを推進する質問に関連するオブジェクトの発見など、いくつかの課題があります。アナリストは、GIS / GPSツールまたは同様のシステムを利用して、大規模なデータベース領域またはその他の完全に巨大なデータセットで表示し、関連するデータのみを

  2. プライバシーを保護するデータマイニングの方法は何ですか?

    プライバシー保護データマイニングは、データマイニングにおけるプライバシーセキュリティに対応するデータマイニング研究のアプリケーションです。これは、プライバシーが強化された、またはプライバシーに配慮したデータマイニングと呼ばれます。基本的な機密データ値を開示せずに、真のデータマイニング結果を取得することを扱います。 ほとんどのプライバシー保護データマイニングアプローチでは、データにさまざまな形式の変換を使用してプライバシー保護を実装します。一般に、このような方法では、プライバシーを維持するために説明の粒度が低くなります。 たとえば、単一のユーザーからユーザーグループにデータを一般化できます。