プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データソースを選択するための基準は何ですか?


データソースの選択には、次のようなさまざまな基準があります-

データのアクセシビリティ −データに2つの可能なフィードが存在する場合、1つは最年少のプロジェクトチームメンバーが生まれる前に作成された一連のプログラムによって維持されるバイナリファイルに保存され、もう1つはバイナリドキュメントを読み取り、より多くの処理をサポートするシステムからのものです。決定は明白です。

データの精度 −データがシステムからシステムに渡されるときに、多くの変更が行われます。他のシステムのデータ要素が追加されることもあれば、既存の要素が処理されて新しい要素が作成されることもあり、他の要素が削除されることもあります。

各システムはその機能をうまく実行します。ただし、元のデータの認識が困難または不可能になる場合があります。場合によっては、データはビジネスが分析に必要なものを表していないことがあります。これらのダウンストリームシステムからのデータを提供すると、ユーザーは正確性に疑問を抱く可能性があります。

プロジェクトのスケジュール −多くの組織では、データウェアハウスプロジェクトは、既存のOLTPシステムの書き換えの一部として開始されます。新しいシステム開発プロジェクトが展開し始めると、データウェアハウスの価値を確実に確信しているビジネスユーザーが、データウェアハウスを後でではなく早く実装することを主張し始める場合があります。

履歴データを提供するには、既存のシステムのデータをデータウェアハウスに含める必要があります。古いシステムの書き換えが延期された場合、データウェアハウスは現在のシステムを引き続き利用できます。新しいシステムが本番環境にリリースされると、データフィードをそのシステムに切り替えることができます。多くの場合、新しいオペレーティングシステムが完成する前にデータウェアハウスを提供することが可能です。

一部のディメンション情報には通常、トランザクションまたはファクトデータが付属していますが、通常は最小限であり、多くの場合、コードの形式でのみ提供されます。ユーザーが必要とし、必要とする追加の属性は、複数のシステムまたは共同マスターファイルから提供されます。

多くの場合、特に顧客ディメンションの場合、複数のマスターファイルが存在する可能性があります。多くの場合、組織全体で使用される個別のファイルがあります。セールス、マーケティング、ファイナンスには、顧客のマスターファイルがある場合があります。

最初に2つの難しい問題があります。これらのファイルに含まれる顧客が異なる可能性があり、各顧客に関する属性が異なる可能性があります。第二に、共通の情報が一致しない可能性があります。時間とお金に制限がない場合は、すべてのソースから豊富なデータを取得し、それを組み合わせて顧客の個別の包括的なビューにすることができます。

ほとんどの場合、それを一度に行うのに十分な時間やお金はありません。このような場合は、ユーザーが情報に優先順位を付け、できることから始めて、将来的に拡張することをお勧めします。


  1. データマイニングの手法は何ですか?

    データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。 主な課題は、データを分析して、問題の解決や企業開発に使用できる重要なデータを抽出することです。データをマイニングし、そこからより良い判断を発見するために利用できる多くの動的な手段と手法があります。 データマイニングには、次のようなさまざまな手法があります- 分類 −分類は、

  2. データキューブ計算の手法は何ですか?

    以下は、データキューブを効率的に計算するための一般的な最適化手法です。- 並べ替え、ハッシュ、グループ化 −関連付けられたタプルを並べ替えてクラスター化するには、ディメンション属性に対して並べ替え、ハッシュ、およびグループ化の操作を使用する必要があります。キューブ計算では、類似したディメンション値のセットを共有するタプルに集計が実装されます。したがって、そのような集計の評価をサポートするために、そのようなデータにアクセスしてグループ化するには、並べ替え、ハッシュ、およびグループ化サービスを分析することが不可欠です。 支店、日、アイテムごとの総売上高を計算できます。タプルまたはセルをブランチ