プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

大規模なデータベースの統計的尺度とは何ですか?


リレーショナルデータベースシステムは、count()、sum()、avg()、max()、min()などの5つの組み込み集計関数をサポートしています。これらの集計関数は、多次元情報の記述的マイニングの基本的な手段として使用できます。中心傾向の測定値とデータ分散の測定値など、2つの記述統計測定値があり、高多次元データベースで効果的に使用できます。

中心傾向の測定 −平均、中央値、最頻値、ミッドレンジなどの中心傾向の測定値。

平均 −算術平均は、すべての値を挿入し、それらを値の数で除算するだけで評価されます。すべての値のデータを使用します。 x 1とします 、x 2 、... x n N個の値または給与などの観測値のセットである。この値のセットの平均は

です。

$$ \ mathrm {X ^ \ prime \:=\:\ frac {\ sum_ {i =1} ^ N \:X_i} {N} \:=\:\ frac {X_1 + X_2 \:\ dotsm \: X_n} {N}} $$

これは、リレーショナルデータベースシステムでサポートされているアセンブルされた集計関数、average(avg())に対応します。いくつかのデータキューブでは、合計とカウントが事前計算に保存されます。したがって、平均の導出は簡単です。

$ \ mathrm {average \:=\:\ frac {sum} {count}} $

中央値 −値の分布に基づいて、中央値を計算する方法は2つあります。

x 1の場合 、x 2 、.... x n は降順で配置され、nは奇数です。したがって、中央値は

$$ \ mathrm {\ left(\ frac {n + 1} {2} \ right)^ {th} \:value} $$

たとえば、1、4、6、7、12、14、18

中央値=7

nが偶数の場合。その場合、中央値は

$$ \ mathrm {\ frac {\ left(\ frac {n} {2} \ right)^ {th} value \:+ \:\ left(\ frac {n} {2} \:+ \:1 \右)^{th}値}{2}} $$

たとえば、1、4、6、7、8、12、14、16。

$$ \ mathrm {Median \:=\:\ frac {7 + 8} {2} \:=\:7.5} $$

中央値は、分配法則でも代数法則でもありません。全体論的尺度です。巨大なデータベースで正確な中央値を評価するだけではありませんが、おおよその中央値を効果的に計算できます。

モード −一連の値の中で最も一般的な値です。ディストリビューションは、ユニモーダル、バイモーダル、またはマルチモーダルにすることができます。データがカテゴリ型(名義尺度で測定)の場合、最頻値のみを計算できます。このモードは、序数以上のデータを使用して計算することもできますが、適切ではありません。

データの分散の測定 −数値情報が広がる傾向の程度は、データの分散または分散として知られています。データ分散の最も頻繁な測定値は、範囲、四分位範囲、および標準の導出です。

範囲 −範囲は、データセットの最大値と最小値の差として表されます。

$$ \ mathrm {Range \:=\:X_L-X_S} $$

どこ

$ \ mathrm {X_L \:\ rightarrow \:最大値} $

$ \ mathrm {X_S \:\ rightarrow \:最小値} $

四分位数 −中央値以外の最も一般的なパーセンタイルは、四分位数です。 Q 1で示される最初の四分位数 25番目の パーセンタイル、Q 3で示される3番目の四分位数 75番目の パーセンタイル。中央値を含む四分位数は、中心、広がりを示し、四分位数の形状は、データの中央半分でカバーされる範囲を提供する広がりの単純な尺度です。これは四分位範囲(IQR)として知られており、-

として定義されます。

$$ \ mathrm {IQR \:=\:Q_ {3} -Q_ {1}} $$

標準偏差 −偏差値の分散が二乗されると、それらの測定単位も二乗されます。


  1. 統計データマイニングの方法論は何ですか?

    統計データマイニング技術では、一般的に多次元であり、場合によってはいくつかの複雑なタイプの大量のデータを効果的に処理するために作成されます。 データ分析、特に数値データについては、確立された統計手法がいくつかあります。これらの方法は、科学的記録(物理学、工学、製造、心理学、医学の実験からの記録など)や、経済学や社会科学からの情報に広く使用されています。 統計データマイニングにはさまざまな方法論があります- 回帰 −一般に、これらの手法は、変数が数値である新しい予測子(独立)変数から応答(従属)変数の値を予測するために使用されます。回帰には、線形、多重、加重、多項式、ノンパラメトリック、ロ

  2. データの整合性の種類は何ですか?

    データベースの整合性は、格納された情報の有効性と整合性を定義します。整合性は、一般に、データベースが違反することを許可されていない整合性ルールである制約の観点から定義されます。制約は、各属性に適用することも、テーブル間の関係に適用することもできます。 整合性制約により、許可されたユーザーがデータベースに加えた変更(更新の削除、挿入)によってデータの整合性が失われることはありません。したがって、整合性制約はデータベースへの偶発的な損傷を防ぎます。 データの整合性には、次のようなさまざまなタイプがあります- 論理的整合性 −リレーショナルデータベースでは、論理的な一貫性により、いくつかの