ETLとは何ですか?
ETLは、抽出、変換、および読み込みの略です。これは、データ駆動型の組織が複数のソースからデータを収集し、それをまとめて発見、レポート、分析、および意思決定をサポートするために使用するプロセスです。
データソースは、タイプ、形式、量、および信頼性が異なる可能性があるため、一緒に配信するときに役立つようにデータを処理する必要があります。ターゲットデータストアは、目的と技術的な実行に基づいて、データベース、データウェアハウス、またはデータレイクになります。 ETLには、次のような次の手順があります-
抽出 −抽出中に、ETLはデータを認識し、そのソースから複製するため、データをターゲットデータストアに転送できます。データは、ファイル、電子メール、ビジネスソフトウェア、データベース、機器、センサー、サードパーティなど、構造化されたソースと構造化されていないソースから表示できます。
抽出を実行するには、
などのさまざまな方法があります。部分抽出 −情報にアクセスする最も簡単な方法は、レコードが変更されたときにソースシステムが通知する場合です。
部分抽出(更新通知付き) −更新が行われた場合に、すべてのシステムがアナウンスを提供できるわけではありません。ただし、変換されたレコードにマークを付けて、そのようなレコードの抽出をサポートすることはできます。
完全な抽出 −特定のシステムは、どのデータが変更されたかをまったく識別できません。この場合、システムからレコードを抽出するための唯一の実現可能性は、完全な抽出です。このアプローチでは、作成された変更を識別できるように、同じ形式の最終抽出物のコピーを用意する必要がありました。
変換 − 2番目のステップには、ソースから抽出された生の情報を、複数のアプリケーションで使用できる形式に変換することが含まれます。このフェーズでは、データのクレンジング、マッピング、変換が行われ、明確なスキーマが提供されるため、運用上のニーズが見つかります。
このプロセスには、データの品質と整合性を提供するいくつかのタイプの変換が必要です。通常、データはターゲットデータソースに正確に読み込まれませんが、代わりに、ステージングデータベースにアップロードされることがよくあります。
この手順により、何かが計画どおりに進まない場合に備えて、迅速なロールバックが保証されます。このフェーズでは、規制順守のための監査ドキュメントを作成したり、一部のデータの問題を診断して修復したりできます。
ロード − ETLは、変換された情報をターゲットデータストアに移動します。このステップでは、すべてのソース情報の元のロードが必要になる場合もあれば、ソース情報の増分変更のロードである場合もあります。データをリアルタイムまたはスケジュールされたバッチでロードできます。
-
データセンターとは何ですか?
datacenterと綴られることもあるデータセンター (一言)は、多数のコンピュータサーバーと関連機器を含む施設に付けられた名前です。 データセンターは、壁を超えた「コンピュータールーム」と考えてください。会社のユーザー宛てのメール、財務記録、ウェブサイトのデータなど、あらゆる種類のデータを保存できます。 データセンターは何に使用されますか? 一部のオンラインサービスは非常に大きいため、1台または2台のサーバーから実行できません。代わりに、これらのサービスを機能させるために必要なすべてのデータを保存および処理するために、数千または数百万台の接続されたコンピューターが必要です。 たと
-
シリアル化とは
最近のプロジェクト更新会議で、私のチームは、シリアライゼーションを使用してこのアプリケーションとの間でデータをやり取りする方法について話しました。 ソフトウェア プロジェクトにもっと関わりたいと考えていたあるエンジニアは、この用語になじみがないと言っていました。 より大規模なプロジェクトに飛び込むまで発生しない、このような重要なプロセスを見落としがちです。ある時点で私がそうであったように、これはこの人に当てはまりました。 だからそれについて書きたかった。その日、私は同僚がシリアライゼーションについて学ぶのを手伝いました。あなたは今日それについて学ぶことになります. シリアライゼーシ