プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

なぜKDDが必要なのですか?


データを知識に変換する従来の手法は、手動の分析と解釈に依存しています。たとえば、医療業界では、専門家が四半期ごとに医療データの現在の傾向と変化を体系的に分析することはよく知られています。

スペシャリストは、スポンサーの医療機関への分析の詳細を示すレポートをサポートします。このレポートは、ヘルスケア管理の将来の意思決定と計画の基礎になります。惑星地質学者が惑星や小惑星のリモートセンシング画像をふるいにかけ、衝突クレーターなどの関心のある地質学的オブジェクトを注意深く配置してカタログ化するなど、いくつかのタイプのアプリケーションがあります。

この形式のデータセットの手動プロービングは、時間がかかり、費用がかかり、主観的です。データ量が劇的に増加するにつれて、この種の手動データ分析はいくつかのドメインで完全に非現実的になりつつあります。

ビジネスでは、KDDの主なアプリケーション分野には、マーケティング、財務(特に投資)、不正検出、製造、電気通信、およびWebエージェントが含まれます。

マーケティング −マーケティングでは、基本的なアプリケーションはデータベースマーケティングシステムであり、顧客データベースを分析して複数の顧客グループを認識し、その行動を予測します。

投資 −いくつかの企業は投資にデータマイニングを使用していますが、ほとんどの企業は自社のシステムを代表していません。 1つの例外はLBSキャピタルマネジメントです。そのシステムは、専門的なシステム、ニューラルネット、および遺伝的アルゴリズムを使用して、合計6億ドルのポートフォリオを処理します。 1993年の開始以来、このシステムは幅広い株式市場を上回っています。

不正検出 − HNCFalconおよびNestorPRISMシステムは、クレジットカード詐欺のチェックに使用され、数百万を超えるアカウントを監視します。米国財務省金融犯罪捜査網のFAISシステムは、マネーロンダリング活動を示す可能性のある金融取引を特定できます。

製造 −GeneralElectricとSNECMAの合弁事業の要素として開発されたCASSIOPEEトラブルシューティングシステム。これは、ボーイング737の問題を診断および予測するために、ヨーロッパの3つの主要航空会社によって使用されました。

通信 −電気通信警報シーケンスアナライザー(TASA)は、電気通信機器および3つの電話ネットワーク(Mannila、Toivonen、およびVerkamo 1995)のメーカーと協力して開発されました。このシステムは、新しいインフラストラクチャを使用して、アラームストリームから頻繁に発生するアラームエピソードを特定し、それらをルールとして表示します。

対話性と反復性を提供する柔軟なデータ取得ツールを使用して探索できる、発見されたルールの膨大なセットがあります。この方法では、TASAは、ルールの基本的なブルートフォース検索の結果を絞り込むためのプルーニング、グループ化、および順序付けデバイスを提供します。

データクリーニング − MERGE-PURGEシステムは、重複する福祉請求の識別に使用されました(Hernandez and Stolfo1995)。ワシントン州の福祉局からのデータに強く使用されました。


  1. データ バックアップが必須の理由

    いつ災害が発生するかは誰にもわかりません。そのため、ドアをノックする前に備えておくことが重要です。これが 3 月 31 日stの理由です。 バックアップは重要なデータの保存されたコピーであり、携帯電話を紛失したり、ハード ドライブがクラッシュしたり、ランサムウェア攻撃によってシステムが侵害されたりした場合に救世主として機能します。 データのバックアップが重要な理由 データ損失のほとんどのインシデントは、予測できない人的エラーまたはハードウェアの誤動作が原因で発生します。つまり、データは簡単に失われ、日常の状況がさらに悪化します。 データ侵害は、データの損失を意味するだけで

  2. 重複ファイルの検出と消去ツールが必要な理由

    重複データは、データを整理する際の最大のハードルの 1 つです。ただし、不完全または不正確なデータと同じように注目されることはありません。 以下は、重複データが大きな問題である理由と、重複ファイル修復ツールの使用が重複排除にどのように役立ち、役立つかを理解することです。 重複データ:典型的な問題 同じデータの複数のコピーは、写真、オーディオ &ビデオ ファイル、またはドキュメントであり、いくつかの問題を引き起こします。このため、データの重複排除は不可欠です。 重複除外とは 重複データを識別し、不要なファイルを削除したり、最適なコピーをマージしたりします。簡単に言えば、重複排除は、