プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データウェアハウスでのさまざまな抽出方法は何ですか?


抽出方法は、ソースルールと、ターゲットデータウェアハウス環境のビジネス要件に大きく依存します。抽出される情報の推定大部分とETL手順のフェーズ(元のロードまたはレコードの保存)も、論理的および物理的な観点から、抽出方法の決定を強制する可能性があります。抽出方法には、論理抽出方法と物理抽出方法の2種類があります。

論理抽出方法

論理抽出には次の2種類があります-

  • 完全抽出 −データはソースシステムから完全に抽出されます。この抽出は、ソースシステムで直接アクセス可能なすべてのデータに従うため、最終的に正常に抽出されたため、データソースへの変更を追跡する必要はありません。

    ソース情報がサポートされ、ソースサイトに追加の論理データ(タイムスタンプなど)は必要ありません。完全な抽出の例としては、個別のテーブルのエクスポートドキュメントや、ソーステーブル全体をスキャンするリモートSQLステートメントがあります。

  • インクリメンタル抽出 −過去の明確なイベントのために変換されたデータが抽出されます。このイベントは、抽出の最終時間でも、会計期間の最終予約日などのより複雑なビジネスイベントでもかまいません。

    このデルタの変化を認識できます。この明確な時間イベントのために、すべての変更されたデータを認識する可能性があるはずです。このデータは、最終的に変更されたタイムスタンプを反映するソフトウェア列を含むソースデータ自体、または適切な追加構造が上昇するトランザクション以外に変更のマークを保持する変更テーブルによってサポートできます。一般的に、後者の手法を利用すると、ソースシステムに抽出ロジックを挿入することが定義されます。

物理的抽出方法

これは、選択された論理抽出方法とソース側の容量と条件に基づいており、抽出された情報は2つの構造によって物理的に抽出できます。情報は、ソースシステムまたはオフラインメカニズムからオンラインで抽出できます。このようなオフラインメカニズムはすでに発生している場合もあれば、抽出ルーチンによって作成されている場合もあります。

物理的な抽出には次の方法があります-

  • オンライン抽出 −データはソースシステム自体から正確に抽出されます。抽出手順は、ソースシステムに直接リンクして、ソーステーブル自体に接続することも、事前構成された側面(スナップショットログやシフトテーブルなど)に情報を保存する中間システムにリンクすることもできます。

  • オフライン抽出 −データはソースシステムから正確に抽出されませんが、特に最初のソースシステムの外部で実行されます。データは現在のアーキテクチャ(たとえば、REDOログ、アーカイブログ、モバイルテーブルスペース)を持っているか、抽出ルーチンによって生成されました。


  1. プライバシーを保護するデータマイニングの方法は何ですか?

    プライバシー保護データマイニングは、データマイニングにおけるプライバシーセキュリティに対応するデータマイニング研究のアプリケーションです。これは、プライバシーが強化された、またはプライバシーに配慮したデータマイニングと呼ばれます。基本的な機密データ値を開示せずに、真のデータマイニング結果を取得することを扱います。 ほとんどのプライバシー保護データマイニングアプローチでは、データにさまざまな形式の変換を使用してプライバシー保護を実装します。一般に、このような方法では、プライバシーを維持するために説明の粒度が低くなります。 たとえば、単一のユーザーからユーザーグループにデータを一般化できます。

  2. データの整合性の種類は何ですか?

    データベースの整合性は、格納された情報の有効性と整合性を定義します。整合性は、一般に、データベースが違反することを許可されていない整合性ルールである制約の観点から定義されます。制約は、各属性に適用することも、テーブル間の関係に適用することもできます。 整合性制約により、許可されたユーザーがデータベースに加えた変更(更新の削除、挿入)によってデータの整合性が失われることはありません。したがって、整合性制約はデータベースへの偶発的な損傷を防ぎます。 データの整合性には、次のようなさまざまなタイプがあります- 論理的整合性 −リレーショナルデータベースでは、論理的な一貫性により、いくつかの