プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングでサポートと信頼を使用する理由


サポートが非常に低いルールは偶然に簡単に表示される可能性があるため、サポートは重要な手段です。低いサポートルールは、ユーザーが一緒に購入することはめったにないアイテムを強化することは有益ではないため、ビジネスの観点からも退屈になる可能性があります。

相関ルールは、X→Yの形式の含意記述です。ここで、XとYは互いに素なアイテムセット、つまり$ \ mathrm {X \ cap \:Y =\phi}$です。アソシエーションルールの耐久性は、そのサポートと信頼性の観点から計算できます。サポートは、特定のデータセットにアクセスできるルールを提供する方法を決定し、信頼性は、Xを含むトランザクションでYのアイテムが発生する頻度を決定します。

信頼度は、ルールによって生成された推論の精度を測定します。 X→Yの特定のルール形式では、信頼度が高いほど、Xを含むトランザクションにYが存在することが許容されます。信頼度は、Xが与えられた場合のYの条件付き確率の推定もサポートします。

アソシエーション分析の結果は注意して実行する必要があります。相関ルールによって生成された推論は、本質的に因果関係を意味するものではありません。それは、ルールの前件と後件の要素間の強力な同時出現関係を示唆するのではなく。因果関係には、情報の因果関係と効果の属性に関する知識が必要であり、通常、時間の経過とともに現れる関係が含まれています。

相関ルールマイニングの問題は次のように述べることができます-

アソシエーションルールの検出 −一連のトランザクションTが与えられた場合、support≥minsupおよびconfidence≥minconfを持ついくつかのルールを見つけます。ここで、minsupとminconfは同等のサポートと信頼のしきい値です。

アソシエーションルールをマイニングするための力ずくの方法は、適用可能な各ルールのサポートと信頼度を計算することです。この方法は、データセットからコピーできるルールが指数関数的にいくつかあるため、非常にコストがかかります。

アソシエーションルールマイニングアルゴリズムの実装を強化するための最初のステップは、サポートと信頼性の要件を切り離すことです。アイテムセットが奇数の場合、したがって、信頼値を計算することなく、6つの候補ルールすべてを直接枝刈りすることができます。

したがって、いくつかの相関ルールマイニングアルゴリズムによるオフショアの一般的な戦略は、問題を2つの主要なサブタスクに分解することです-

頻繁なアイテムセットの生成 −目的は、しきい値を必要とするいくつかのアイテムセットを発見することです。これらのアイテムセットは、頻繁なアイテムセットと呼ばれます。

ルールの生成 −目的は、前のステップで発見された頻繁なアイテムセットから信頼性の高いルールを抽出することです。これらのルールは強力なルールとして知られています。頻繁なアイテムセット生成の計算要件は、ルール生成の計算要件よりもコストがかかることがよくあります。


  1. ZFSスナップショットとクローンの使用方法

    ストレージデバイスでZFSを使用することにした場合は、おめでとうございます。地球上で最も複雑で機能豊富なファイルシステムの1つを使用しています。また、家族の写真やビデオなどの長期データを保存することにした場合は、ZFSを真剣に検討してください。 4台のミラーリングされたハードドライブなどの冗長セットアップでは、ビットの腐敗やその他の形式のストレージの劣化、コンピュータエラーなどが原因で、1ビットのデータが失われることは絶対にありません。 ZFSは、データを自動的に自己修復および回復できます。複雑なアルゴリズム、ハッシュ、およびマークルツリーはデータの整合性を保証します。 ただし、このチュート

  2. Windows サンドボックスの使用方法 (およびその理由)

    Windows 10 の 2019 年 5 月の更新プログラム (ビルド 1903) には、興味深い新機能が含まれています。より経験豊富なユーザーを対象としていますが、さまざまな一般的なタスクの安全性を向上させることもできます。 Windows Sandbox と名付けられたこのツールを使用すると、メイン マシンから分離された、隔離された Windows 環境を数秒で起動できます。セッションを終了すると、環境は破棄されます。 Sandbox は、Windows の長年にわたる問題の 1 つをついに解決します。ソフトウェアのインストールは不透明で、システムをすぐに台無しにする可能性がありま