プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データキューブアグリゲーションとは何ですか?


データ統合は、いくつかの異なるソースからのデータをマージする手順です。データ統合を実行する際には、データの冗長性、不整合、重複などに対処する必要があります。データマイニングでは、データ統合はレコードの前処理方法であり、複数の異種データソースからのデータをコヒーレントデータにマージして、統合を維持および提供します。データの観点。

データ統合は、ヘルスケア業界では特に重要です。いくつかの患者記録と診療所からの統合データは、いくつかのシステムからの情報を有益な情報の単一の視点に統合することにより、臨床医が医学的障害と疾患を特定するのを支援し、そこから有用な洞察を引き出すことができます。

効果的なデータ収集と統合により、医療保険の請求処理の精度も向上し、患者の名前と連絡先情報が一貫して正確に記録されるようになります。相互運用性とは、異なるシステム間で情報を共有することを指します。

必要な形式とは異なる形式のデータがある場合は、集計方法を属性に適用して、目的の属性を取得できます。たとえば、ショップのデータは2010年から2012年までの四半期売上で構成されています。データは四半期形式で入手できますが、年間売上を取得する必要があります。したがって、目的の出力を見つけるには、データを集約する必要があります。

Quarter 販売 四半期 販売 四半期 販売 販売
2010年 2011年 2012年 年間売上高
Q1 Rs.10000 Q1 Rs.8000 Q1 Rs.15000 2010 Rs.1,30,000
Q2 Rs.50000 Q2 Rs.15000 Q2 Rs.20000 2011 Rs.53000
Q3 Rs.40000 Q3 Rs.10000 Q3 Rs.40000 2012 Rs.1,05,000
Q4 Rs.30000 Q4 Rs.20000 Q4 Rs.30000

2010年から2012年までの四半期ごとの売上は、単一の年間売上記録に集約されます。

属性ごとに概念階層が存在する場合があり、複数の抽象化レベルでデータを分析できます。たとえば、ブランチの階層により、ブランチをアドレスに基づいてリージョンにグループ化できます。データキューブは、事前に計算され、要約されたデータへの迅速なアクセスをサポートするため、オンライン分析処理とデータマイニングに役立ちます。

抽象化の最低レベルで生成された立方体は、基本直方体として定義されます。基本直方体は、販売または顧客を含む、関心のある単一のエンティティに対応する必要があります。つまり、最低レベルが使用可能であるか、分析に役立つ必要があります。抽象化の最高レベルにある立方体は、頂点の直方体です。

いくつかのレベルの抽象化のために生成されたデータキューブは直方体として定義されるため、データキューブは代わりに直方体の格子を定義できます。抽象化のレベルが大きくなるごとに、結果のデータサイズがさらに小さくなります。データマイニングリクエストに返信するときは、特定のタスクに関連する利用可能な最小の直方体を使用する必要があります。


  1. データセンターとは何ですか?

    datacenterと綴られることもあるデータセンター (一言)は、多数のコンピュータサーバーと関連機器を含む施設に付けられた名前です。 データセンターは、壁を超えた「コンピュータールーム」と考えてください。会社のユーザー宛てのメール、財務記録、ウェブサイトのデータなど、あらゆる種類のデータを保存できます。 データセンターは何に使用されますか? 一部のオンラインサービスは非常に大きいため、1台または2台のサーバーから実行できません。代わりに、これらのサービスを機能させるために必要なすべてのデータを保存および処理するために、数千または数百万台の接続されたコンピューターが必要です。 たと

  2. STREAMとは何ですか?

    STREAMは、k-中央値問題のために作成された個別パスの定数要素近似アルゴリズムです。 k-medians問題は、ポイントとそれらが割り当てられているクラスター中心との間の二乗和誤差(SSQ)が最小になるように、N個のデータポイントをk個のクラスターまたはグループにクラスター化することです。アイデアは、同じクラスターに同様のポイントを割り当てることです。これらのポイントは、他のクラスターのポイントとは異なります。 ストリームデータモデルでは、データポイントは1回しか表示できず、メモリと時間は制限されています。高品質のクラスタリングを実装できます。STREAMアルゴリズムは、データストリーム