プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

ネガティブパターンをマイニングするためのテクニックは何ですか?


まれなパターンをマイニングするために作成された最初のクラスの手法では、各アイテムが対称バイナリ変数と見なされます。取引情報は、ネガティブアイテムで補強することで2値化できます。初期データを正と負の両方の項目を持つトランザクションに変更するインスタンスを表示します。拡張トランザクションでAprioriを含む現在の頻繁なアイテムセット生成アルゴリズムを使用することにより、いくつかのネガティブアイテムセットを導出できます。

このようなアプローチは、いくつかの変数が対称バイナリと見なされる場合にのみ可能です(つまり、少数の項目の否定のみを含む否定パターンで表示されます)。各項目を対称バイナリと見なす必要がある場合、次の理由により、問題の計算が困難になります。

各アイテムが対応するネガティブアイテムで拡張されると、複数のアイテムが2倍になります。サイズ2 d のアイテムセットラティスを探索するのではなく 、ここで、dは初期データセット内のアイテムの数であり、ラティスは高くなります。

ネガティブアイテムが拡張された場合、サポートベースのプルーニングは効率的ではなくなります。すべての変数xについて、xまたはx のいずれか 50%以上を提供しています。したがって、サポートのしきい値が50%であっても、アイテムの半分が頻繁に発生します。

より低いしきい値の場合、いくつかのアイテムと、場合によってはそれらを含むアイテムセットが頻繁に発生します。 Aprioriが採用しているサポートベースのプルーニング方法は、ほとんどのアイテムセットのサポートが低い場合にのみ効率的です。したがって、さまざまな頻繁なアイテムセットは指数関数的に増加します。

ネガティブアイテムが拡張されると、各トランザクションの幅が向上します。初期データセットで利用可能なd個のアイテムがあることを考慮してください。マーケットバスケットトランザクションを含むスパースデータセットの場合、各トランザクションの幅はdよりもはるかに小さくなります。

したがって、頻繁なアイテムセットの最大サイズは、最大トランザクション幅w maxによって制限されます。 、連想的に小さい影響。負のアイテムが含まれている場合、アイテムがトランザクションに存在するか、トランザクションに存在しないため、トランザクションの幅はdに増加しますが、両方ではありません。

最大トランザクション幅がwmaxから増加したため dに、これは急速に変化する複数の頻繁なアイテムセットの数を増やします。したがって、一部の現在のアルゴリズムは、長いデータセットに使用されると機能しなくなる傾向があります。

以前のブルートフォースアプローチは、膨大な数の正と負のパターンのサポートを決定することを余儀なくされるため、計算コストがかかります。ネガティブアイテムでデータセットを拡張するのではなく、別のアプローチは、相関するポジティブアイテムのサポートに応じてネガティブアイテムセットのサポートを決定することです。


  1. レコメンダーシステムのデータマイニング方法は何ですか?

    レコメンダーシステムは、コンテンツベースのアプローチ、コラボレーションアプローチ、またはコンテンツベースとコラボレーションの両方の方法を組み合わせたハイブリッドアプローチを使用できます。 コンテンツベース −コンテンツベースのアプローチでは、顧客が以前に好んだまたは照会したアイテムと同じアイテムを推奨します。製品の機能とテキストによるアイテムの定義によって異なります。 コンテンツベースの方法では、類似したユーザーが同じである異なるアイテムに割り当てたユーティリティに基づいて計算されます。多くのシステムは、Webサイト、記事、ニュースメッセージなどのテキストデータを含むアイテムの推奨を対象と

  2. 識別に使用される生体認証技術は何ですか?

    次のような生体認証の手法がいくつかあります- 顔認識 −生体認証システムは、顔で人を認識することができます。このテクノロジーは、目の間の距離、鼻の幅、頬骨の位置、顎のライン、あご、独特の形状、パターンなど、顔の特定の特性を分析することによってサービスを提供します。これらのシステムには、目、鼻、口、および識別のための他の顔の特徴。 顔認識は、ビデオまたは静止画像のいずれかから顔の特徴をキャプチャし、顔の固有の特徴を数字のグループに変換します。顔から集められたこれらのデータは、各人を一意に識別する1つのユニットにまとめられています。 手の形状 −手の形状は、ユーザーの手と指の物理的特性をキャ