AWSを活用してデータエンジニアリング戦略を成功させる

元々は2019年5月にOnica.com/blogで公開されました

ビッグデータの可能性は誰もが知っていますが、一部の企業にとって、データと分析は依然としてレガシーの世界に存在しています。これは、オンプレミスサーバー内に保存され、独自のソフトウェアで分析される構造化データの世界です。

よりビッグデータに適した方法に移行したい組織にとって、この古い世界はその移行を困難にしますが、過去数年間のデータエンジニアリングの変革は非常に深刻であり、新しい方法やテクノロジーを使用していない組織は主要なビジネスを逃しています利点。そのことを念頭に置いて、データエンジニアリングと、それをビジネスの成功にどのように使用できるかをもう一度検討することが重要です。

データエンジニアリングとは何ですか？

データエンジニアリングの定義は、何年にもわたってあまり変わっていません。ただし、基盤とツールは大幅に変化しました。中核となるのは、データエンジニアリングは、データテクノロジーに関する幅広い知識、適切なデータガバナンスとセキュリティ、およびデータ処理に関する深い理解を通じて、データサイエンスと分析をサポートする基盤です。

リレーショナルデータベースやトランザクションデータベースなどの従来のテクノロジーは依然としてBigDataarchitectureに存在しますが、シーンに新たに登場したことで、この分野にイノベーションが生まれました。データエンジニアリングに関しては、AWS®がゲームを変えました。主な製品は次のとおりです。

Amazon®DynamoDB® ：Amazon DynamoDBは、ドキュメント、グラフ、キー値、メモリ、検索などのさまざまなデータモデルを使用できるようにすることで、リレーショナルデータベースの代替手段を提供するNoSQL®データベースです。これにより、最新のワークロード向けに、スケーラブルで柔軟性があり、パフォーマンスが高く、機能性の高いデータベースが作成されます。

Apache®Hadoop® ：Apache Hadoopは、クラスタリングを利用して大規模なデータセットを処理するために使用できるオープンソースサービスです。 Hadoopには、ワークロードのニーズに対応できるツールの完全なエコシステムがあります。Hadoopは、Amazon Elastic MapReduce（EMR）を使用してAWSで実行できます。これにより、HadoopおよびHadoopエコシステムで他の関連アプリケーションを実行する際のクラスター管理が簡素化されます。

Amazon EMR ：AWSでHadoopエコシステムを管理するためのツールであるEMRを使用すると、Amazon ElasticComputeCloud®（Amazon EC2）インスタンス全体でデータをコスト効率よく処理できます。 Amazon EMRは、ApacheSpark®やHBase®などの他の分散フレームワークの実行も可能にし、Amazon Simple Storage ServiceAmazonS3やAmazonDynamoDBなどのAWSデータストアの相互作用を可能にします。

Amazon Redshift ：高速でスケーラブルなデータウェアハウスであるAmazon Redshiftを使用すると、クエリをデータレイクに簡単に拡張できます。機械学習、並列クエリ実行、列型ストレージを使用することで、AmazonRedshiftは他のデータウェアハウスよりも10倍高速なパフォーマンスを実現します。

AWS Glue ：AWS Glueは、フルマネージドの抽出、変換、読み込み（ETL）サービスであり、お客様が分析用のデータを簡単に準備して読み込むことができます。カタログ化されると、データはすぐに検索、クエリ可能になり、ETLで利用できるようになります。

アマゾンアテナ ：Amazon Athenaは、標準のSQL®を使用してAmazonS3のデータを簡単に分析できるインタラクティブなクエリサービスです。また、AWS Glue Data Catalogと統合されているため、さまざまなサービス間で統合されたメタデータリポジトリを作成し、データソースをクロールしてスキーマを検出し、カタログに新規および変更されたテーブルとパーティションの定義を入力し、スキーマのバージョン管理を維持できます。

A他のすべてと同様に、重要なのは、組織のデータセキュリティのニーズを満たす形式とモデルで、仕事に適したコンポーネントを見つけることです。

AWSを使用したデータエンジニアリング：クライアントの例

この好例は、月次レポートシステムを介してデータをプッシュしていたクライアントからのものです。レポートはクライアント固有の必要なものを提供しましたが、収集した豊富なデータからそれ以上の価値は得られませんでした。取り組みの一環として、自動パイプラインと組み込みのデータチェックを使用してデータレイクを構築し、データをレポートシステムに送信する前に処理することができました。

このコンポーネントをデータアーキテクチャに追加することで、クライアントはレポートシステムを維持するだけでなく、元のデータセットへのより優れた機能とアクセスを追加し、コスト管理と収益性に関する特別な質問に答えることができます。これは、多くの企業がデータを使用していることを証明しています。日常業務における分析と、適切なツール、特に新しいツールとテクノロジーを統合することで、より大きな結果を得るためにデータを活用できるようになります。

データ処理の実装

データエンジニアリングを活用する場合は、適切なデータアーキテクチャコンポーネントを用意するだけでは不十分です。また、データ処理の強力な基盤も必要です。データ処理には、データライフサイクル全体でのデータの移動だけでなく、品質チェックや不良データのクリーンアップの手法によるデータの最適化も含まれます。

おそらく、データ処理の最も重要な部分はデータの取り込みです。本質的に、データの取り込みは、データの発信元からストレージシステムへの移動にすぎませんが、これを実現するにはいくつかの方法があります。データの取り込みは、自動化されている場合に最適に機能します。これは、データの更新を最小限に抑えて最適な鮮度を実現できるためです。また、データパイプラインのストリーミングを介した連続的かつリアルタイムの場合もあれば、バッチ処理を介した非同期の場合もあります。使用する取り込み方法の決定は、取り込まれるデータのタイプ、ソース、および宛先に依存します。AWSは、Amazon Kinesis Firehose（リアルタイムストリーミングを提供的に管理する）などのサービスを含む独自のデータ取り込み方法をAmazonS3に提供します。およびAWSSnowball（オンプレミスストレージおよびHadoopクラスターの一括移行を可能にする）からAmazonS3およびAWSStorage Gateway（オンプレミスデータ処理プラットフォームをAmazon S3ベースのデータレイクと統合する）へ。

リレーショナルデータベースを使用している場合、この取り込みのもう1つの部分は、抽出、変換、および読み込み（ETL）です。 ETL処理は、重複排除、および不良データのクリーンアップとフラグ付けによってデータをクレンジングします。データベースの形式に合わせて変換します。これは、SparkやFlinkなどのフレームワークを使用しながら、Python、Java、Scalaなどの言語を介して実行でき、データ品質を向上させるための鍵となります。

使用するデータベースの種類に関係なく、結果のデータが正確で信頼できるものになるようにするには、強力なデータ品質プログラムが重要です。これは、AWS Identity and Access Management（IAM）などのツールを使用してデータアクセスの役割を特定および設定し、標準化と調整のプロセスを制定し、データの整合性を維持するための品質チェックを開始することを意味します。データ品質は新しい概念ではありませんが、品質データを促進するために利用できるリソースは新しい概念です。最新のデータツールを通じて、私たちのチームはクライアント向けの自動データ品質レポートを作成しました。これには、ソースシステムからのデータとレポートダッシュボードに移動するダウンストリームシステムとのスケジュールされた定期的な比較が含まれ、システムを離れるデータの品質に対する前例のない洞察を可能にし、エラーまたは品質損失をプロアクティブに識別して、データからの苦情の前に問題を修正できるようにします消費者。

現在および将来の成功のためにビッグデータを活用する

おそらく、データエンジニアリングにおけるこれらの変化を分析する上で最も明確なのは、プロセスが変化しただけでなく、変化し続けていることです。同様に、これらの変更がビジネスデータポリシーに与える影響と、これらの変更を使用してビジネスの成功を向上させる方法を検討することが重要です。データと分析の変更は、アーキテクチャとツールに影響を与えるだけでなく、データ使用に関する新しいシステムと考え方も生み出しました。。

データと分析の取り組みは、プロジェクトの完了時またはビジネスの取り組みのフォローアップとして行われていましたが、現在では、データを自動的かつ継続的に処理することが一般的です。これは、AmazonS3などのデータアーキテクチャを改善するツールを通じて可能になります。 Amazon DynamoDB、データ取り込みパイプライン、および機械学習や自動データダッシュボードなど、データの監視と消費の方法を変更する方法論とプロセスを介して。企業は、ストレージスペースやお金を無駄にすることなく、データをより長く保持できるようになりました。データクレンジングを簡単に自動化して、データが適切にキュレートされ、簡単に探索され、リアルタイムでアクセスできるようにして、データアーキテクチャにこれらのサービスを実装する人に競争上の利点を提供します。。

コメントや質問をするには、[フィードバック]タブを使用します。 セールスチャットをクリックすることもできます今すぐチャットして会話を始めましょう。

WebLogicServer12cでのSSLの構成

AutonomousDatabaseDedicatedおよびExadataクラウドインフラストラクチャ

Android 向けの 5 つのベストデータ使用トラッカー
スマートフォンは私たちを夢中にさせ、目を覚ますとすぐに、枕の下やベッドサイドテーブルでスマートフォンを探し始めます。シンプルな通信デバイスが私たちの生活にこれほどまでに影響を与えるとは誰が考えたでしょうか?友達とのコミュニケーション、ソーシャルメディアでの美しい写真の誇示、さまざまなクエリの検索などに使用します。したがって、月末までに過剰なデータを使用することになります。そのため、データの使用状況に注意を払うことが非常に重要です。自分ではできないので、サードパーティのアプリを使用するのが最適なソリューションです。 Android 向けの 5 つの最高のデータ使用トラッカーのリスト Goo
データセンター用のフラッシュストレージの必要性
テクノロジーと時代の変化に伴い、データを保存するためのさまざまな代替手段が利用できるようになりました。最初の段階ではフロッピードライブが使用され、続いて CD と DVD がメディアの書き込みに使用されました。しかし、私たちが話しているように、これらのデバイスは絶滅しつつあります。最新のラップトップモデルを含む、今日の主流デバイスのほとんどには、CD/DVD ドライブが内蔵されていません。市場の誇大宣伝と人々の言葉によると、今後数年のうちに、完全な世界のデータがクラウドに保存されるようになります。しかし、これは完全に正しいとは言えません。ビジネスは、クラウドが提供するデータよりも詳細に