データマイニングの分類と予測に関するさまざまな問題は何ですか?
分類または予測フェーズの精度、有効性、およびスケーラビリティを向上させるためにデータに使用できる次の前処理ステップがあります。これらは次のとおりです-
-
データクリーニング −これは、平滑化方法と欠落値の操作を使用してノイズを除去または低減するためのデータの前処理を定義します(たとえば、欠落値をその属性に対して最も一般的に表示される値で、または確立された最も可能性の高い値で復元することによって)統計学)。さまざまな分類アルゴリズムには、ノイズの多い情報や欠落している情報を管理するための構造がいくつかありますが、この手順は、学習中の混乱を減らすのに役立ちます。
-
関連性分析 −データには、分類または予測タスクに関係のないさまざまな属性があります。たとえば、銀行ローンのソフトウェアが入力された曜日を記録するデータは、ソフトウェアの成功に関連している可能性は低いです。さらに、いくつかの異なる属性が冗長になる可能性があります。
したがって、関連性分析をデータに実装して、学習手順から関連性のない属性や冗長な属性を削除することができます。機械学習では、このステップは特徴選択と呼ばれます。速度が低下し、学習ステップを誤解させる可能性のある属性が含まれています。
正しくは、関連性分析に使用される時間は、結果として得られる「削減された」機能サブセットからの学習に使用される時間に挿入され、初期の機能セットからの学習に使用される時間よりも短くなければなりません。したがって、このような分析は、分類の有効性とスケーラビリティを高めるのに役立ちます。
-
データ変換 −データをより大規模なアプローチに一般化することができます。これらの目標には、概念階層を使用できます。これは、連続値の属性に特に役立ちます。たとえば、属性収入の数学的値は、低、中、高を含む個別のフィールドに一般化できます。同様に、通りなどの名目上の値の属性は、都市などのより大きなレベルの概念に一般化できます。
一般化により初期トレーニングデータが短縮されるため、学習中に含めることができる入出力操作が少なくなります。特に、学習ステップで距離測定を含むニューラルネットワークまたは手法を使用する場合は、データを正規化することもできます。
正規化には、特定の属性のすべての値をスケーリングして、-1.0から1.0、または0から1.0を含む指定された小さな領域内で減少するようにすることが含まれます。たとえば、距離測定を適用するこれらのアプローチでは、これにより、元々高範囲の属性(収入など)を回避できます
-
データウェアハウスのセキュリティの問題は何ですか?
データウェアハウジングは、ビジネスに重要なビジネス洞察を与えるために、複数のソースからデータを収集して処理するために一般的に使用されるアプローチです。データウェアハウスは、管理上の意思決定をサポートするように特別に設計されています。 簡単に言うと、データウェアハウスは、組織の運用データベースから独立して維持されるデータベースを定義します。データウェアハウスシステムは、複数のアプリケーションシステムの統合を可能にします。分析用の統合された履歴情報の強固なプラットフォームを提供することにより、データ処理を提供します。 データウェアハウスは、データを多次元空間で一般化および一元化します。データウ
-
データマイニングインターフェイスとは何ですか?
データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。 事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。 これは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。 データマイニングをアウトソーシングすることで、すべての作業をより迅速に、低い運用コストで実行できます。特