データマイニングでメジャーはどのように計算されますか?
メジャーは、分配法則、代数法則、および全体論を含む3つの要素に編成できます。使用する集計関数の種類によって異なります。
配布 −集計関数は、次のように配信された方法で計算できる場合、分配法則です。データがnセットに独立していると考えてください。各パーティションへのサービスを使用できるため、n個の集計値が得られます。
関数を使用してn個の集計値に変更された結果が、関数をデータセット全体(パーティション化なし)に使用して得られた結果と同じである場合、関数は分散して評価できます。
たとえば、データキューブのcount()は、最初にキューブをサブキューブのグループに分割し、すべてのサブキューブのcount()を計算してから、各サブキューブで取得したカウントを合計することで計算できます。したがって、count()は分散型の集約サービスです。
分散型集計サービスを使用して取得されたメジャーは、分散型です。分配法則は分配法則で計算できるため、効果的に計算できます。
代数 −集約関数は、M個の引数(Mは有界の正の整数)を持つ代数サービスによって計算できる場合は代数的であり、各引数は分配集約サービスを使用して取得されます。
たとえば、avg()(平均)はsum()/ count()で計算できます。ここで、sum()とcount()は両方とも分散型集約サービスです。同様に、min N()とmax N()(特定のセットでN個の最小値とN個の最大値を検出します)と標準偏差()は代数的集計サービスであると表示できます。メジャーは、代数集計サービスを使用して取得された場合、代数的です。
ホリスティック −サブアグリゲートを定義するために必要なストレージサイズに固定の境界がない場合、アグリゲート関数は全体論的です。計算を説明するM個の引数(Mは定数)を持つ代数関数が継続しない場合。
中央値()、最頻値()、ランク()などの全体的な関数の例。メジャーは、全体的な集計関数を使用して取得された場合、全体的なものになります。
ほとんどの大規模なデータキューブアプリケーションでは、分配法則と代数法則の効果的な計算が必要でした。これにはいくつかの効率的な方法があります。対照的に、全体的な測定値を効率的に計算することは複雑です。いくつかの全体的な尺度の計算を概算するための効率的なアプローチは、まだ存在します。
たとえば、正確なmedian()を計算する代わりに、巨大なデータセットのおおよその中央値を計算するために使用できます。場合によっては、そのような方法は、全体的な測定値の効果的な計算の難しさを克服するのに十分です。
-
空間データマイニングのプリミティブは何ですか?
空間データマイニングは、データマイニングを空間モデルに適用することです。空間データマイニングでは、アナリストは地理データまたは空間データを使用して、ビジネスインテリジェンスまたはさまざまな結果を作成します。これには、地理データを関連性のある有益な形式に変換するための特定の方法とリソースが必要でした。 空間データマイニングには、パターンの認識や、研究プロジェクトを推進する質問に関連するオブジェクトの発見など、いくつかの課題があります。アナリストは、GIS / GPSツールまたは同様のシステムを利用して、大規模なデータベース領域またはその他の完全に巨大なデータセットで表示し、関連するデータのみを
-
メタルールはデータマイニングでどのように役立ちますか?
データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。 これは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。 データマイニングはデータサイエンスに似ています。それは、特定の状況で、特定のデータセットに対して、目的を持っ