数の削減とは何ですか?
数の削減では、代替のより小さな形式のデータ表現を選択することにより、データ量が削減されます。これらの手法は、パラメトリックまたはノンパラメトリックの場合があります。パラメトリック法の場合、モデルを使用してデータを推定するため、対数線形モデルなどの実際のデータではなく、データパラメーターのみを保存する必要があります。ノンパラメトリック手法は、ヒストグラム、クラスタリング、サンプリングなど、データの縮小表現を保存するために使用されます。
数を減らすには、次のようなテクニックがあります-
回帰および対数線形モデル −これらのモデルは、特定のデータを概算するために使用できます。線形回帰では、データは直線に合うようにモデル化されます。たとえば、確率変数y(応答変数として知られている)は、方程式y =wx + bを使用して、別の確率変数x(予測変数として知られている)の線形関数としてモデル化できます。ここで、yの分散は一定であると見なされます。
対数線形モデル −これらのモデルは、離散多次元確率分布を近似するために使用されます。 n次元のタプルのセット(たとえば、n個の属性による)が与えられると、各タプルをn次元空間の点と見なすことができます。
対数線形モデルを使用して、次元の組み合わせのより小さなサブセットに依存する、離散化された属性のセットの多次元空間内の各ポイントの確率を測定できます。これにより、低次元の空間から高次元のデータフィールドを生成できます。
ヒストグラム −ヒストグラムは、ビニングを使用してデータ分布を概算し、データ削減の有名な形式です。属性Aのヒストグラムは、Aのデータ分布を互いに素なサブセットまたはバケットに分割します。各バケットが個別の属性値/頻度のペアのみを定義する場合、バケットはシングルトンバケットと呼ばれます。
クラスタリング −クラスタリング手法では、データタプルをオブジェクトと見なします。それらは、オブジェクトをグループまたはクラスターに分割して、クラスター内のオブジェクトが互いに「類似」し、他のクラスター内のオブジェクトと「非類似」になるようにします。これは通常、距離関数に基づいて、オブジェクトが空間内でどれだけ「近い」かという観点から定義されます。
クラスターの品質は、クラスター内の任意の2つのオブジェクト間の最大距離である直径によって定義できます。重心距離は、クラスター品質の代替手段であり、「平均オブジェクト」またはクラスターの領域内の平均点を示すクラスター重心からの各クラスターオブジェクトの平均距離として表されます。
サンプリング −サンプリングは、情報のはるかに小さなランダムサンプル(またはサブセット)によって巨大なデータセットを定義できるため、データ削減アプローチとして使用できます。
-
モデルベースのクラスタリングとは何ですか?
モデルベースのクラスタリングは、データクラスタリングへの統計的アプローチです。観測された(多変量)データは、コンポーネントモデルの有限の組み合わせから作成されたと見なされます。各コンポーネントモデルは確率分布であり、通常はパラメトリック多変量分布です。 たとえば、多変量ガウス混合モデルでは、各コンポーネントは多変量ガウス分布です。特定の観測値の生成を担当するコンポーネントによって、観測値が属するクラスターが決まります。 モデルベースのクラスタリングは、特定のデータといくつかの数学モデルの間の適合を促進する試みであり、データが基本的な確率分布の組み合わせによって作成されるという仮定に基づいて
-
OLAPとは何ですか?
OLAPは、On-LineAnalyticalProcessingの略です。 OLAPは、アナリスト、マネージャー、およびエグゼクティブが、生の情報から実際の次元を反映するように変更された情報のさまざまなビューで、高速で一貫性のあるインタラクティブなアクセスを通じてデータへの洞察を得ることができるようにするソフトウェアテクノロジーの要素です。クライアントが学んだ企業。 OLAPを使用すると、ユーザーはデータやその他の分析クエリのオンライン記述または比較要約を生成できます。これは、分析を目的とした多次元レコードの収集、保存操作、および複製を可能にするソフトウェアおよびテクノロジーの要素を指定し