プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

アソシエーションパターンの評価は何ですか?


アソシエーション分析アルゴリズムは、膨大な数のパターンを作成する可能性があります。たとえば、データセットには6つの項目しか含まれていませんが、特定のサポートと信頼性のしきい値で最大数千の相関ルールを作成できます。実際の金銭的データベースのサイズと次元は大きくなる可能性があるため、数千または数百万ものパターンになりやすく、その一部は面白くありません。

ある人のゴミは別の人の宝になる可能性があるため、パターンを分析して、最も興味深いものが簡単なサービスではないことを認識します。アソシエーションパターンの品質を計算するために、広く受け入れられている一連の方法を作成することが不可欠です。

基準の最初のセットは、統計的引数を介して作成できます。相互に分離したアイテムのグループを含むパターン、または複数のトランザクションをカバーするパターンは、データ内で偽の関連付けを行う可能性があるため、興味のないものとして扱われます。

このようなパターンは、データから得られた統計を使用してパターンが興味深いかどうかを判断する客観的な興味深い部分を使用することで削除できます。サポート、信頼、相関などの客観的な興味の尺度の例。

基準の2番目のセットは、主観的な議論を通じて作成できます。パターンは、データに関する予期しないデータを認識したり、有益なサービスにつながる可能性のある有益な知識をサポートしたりしない限り、主観的に興味のないものとして扱われます。

たとえば、ルール{Butter}→{Bread}は、サポートと信頼性の値が高いにもかかわらず、ルールによって定義された関係がかなり明白に見える可能性があるため、興味深いものにはなりません。

別の言い方をすれば、{おむつ}}→{{ビール}というルールは興味深いものです。関係が予期せず、小売業者に新しいクロスセリングイベントをアドバイスできるからです。主観的な知識をパターン計算に組み込むことは、ドメインの専門家からのかなりの量の以前のデータを必要としたため、複雑な作業です。

以下は、バイアスのかかった知識をパターン発見タスクに組み込むためのいくつかのアプローチです。-

視覚化 −このアプローチでは、人間のユーザーをループに維持するためのユーザーフレンドリーな環境が必要でした。また、ドメインの専門家は、発見されたパターンを実行してテストすることにより、データマイニングシステムに接続できます。

テンプレートベースのアプローチ −このアプローチにより、ユーザーはマイニングアルゴリズムによってコピーされるパターンのタイプを制限できます。抽出されたすべてのルールを文書化するのではなく、ユーザー指定のテンプレートを必要とするルールのみがユーザーに復元されます。

主観的な面白さの尺度 −主観的な尺度は、概念階層や要素のゲイン制限などのドメインデータに基づいて表すことができます。このメジャーは、アクセス可能でアクション不可能なパターンをフィルタリングするために使用できます。


  1. データウェアハウスの設計は何ですか?

    データウェアハウジングは、複数のソースから情報を収集および管理して、ビジネスに重要なビジネス洞察をサポートできるアプローチです。データウェアハウスは、サポート管理の意思決定を目的として特別に作成されています。 データウェアハウスは、会社の運用データベースとは別に維持されるデータベースを定義します。データウェアハウスシステムは、複数のアプリケーションシステムの統合を可能にします。分析用の統合された履歴レコードの強固なプラットフォームをサポートすることにより、データ処理をサポートします。 データウェアハウスは、リモートベースエリアで定義されたマテリアライズドビューのグループと見なすことができま

  2. ステガノグラフィの用途は何ですか?

    ステガノグラフィは、データを隠す技術であり、埋め込まれたデータの存在を隠すための取り組みです。これは、メッセージの存在ではなくメッセージの内容のみを非表示にする暗号化よりも優れたメッセージ保護方法として機能します。 元のメッセージはキャリア内で表示されていないため、キャリアに表示された変更は明らかではありません。ステガノグラフィにはさまざまな用途があります- ステガノグラフィは、検閲されることなく、またメッセージが妨げられて私たちにさかのぼることを恐れることなく、ニュースやデータを送信するために適用できるソリューションになる可能性があります。 ステガノグラフィを使用して場所にデー