データベース
 Computer >> コンピューター >  >> プログラミング >> データベース

データレイクとは何ですか、なぜ気にする必要がありますか

近年、データレイクはテクノロジーの恩恵からデータサイエンスの最高のビーチフロントの不動産に移行しました。なぜこれが起こっているのですか、そしてなぜそれらは重要ですか?簡単な答え…そこには価値があります。

データには価値があります

ますます、企業のデータに大きな潜在的価値が含まれていることは明らかです。グーグル、フェイスブック、その他のようなインターネットの巨人の形式で、彼らの価値は主に彼らのデータから得られます。ただし、データから価値を引き出すためにインターネットの巨人である必要はありません。データは、産業会社が機械の故障を予測するために、金融機関がリスクをより適切に管理するために、オンライン小売業者が顧客維持を高めるために、そして他の無数の機関が新しい洞察を発見するために使用しています。これはかなり単純な式のように見えます。データをビジネス分析ツールまたは機械学習(ML)システムにフィードし、洞察を得ることができます。非現実、それはそれほど単純ではありません。分析の問題に取り組む前に、1つの必須の前提条件を満たさなければなりません。実際には、洞察を含むデータが必要です。

これは単なる別のデータウェアハウスソリューションではありませんか?

「これはデータウェアハウスが解決する問題ではないか」とお考えかもしれません。実際にはそうではありません。データウェアハウスは、定義された一連のビジネス上の問題を解決するために構築されています。データウェアハウスのデータ取り込みでは、抽出、変換、読み込み(ETL)ワークフローが使用されます。データはソースシステムから抽出され、データウェアハウスの構造に変換されてから、データウェアハウスに読み込まれます。この時点で、データはすでに構造化、フィルタリング、またはその他の方法で操作されて、定義されたビジネス問題セットに関係のないデータを除外しています。 ETLプロセスでは、暗黙的または明示的に、一部のデータ値を保持し、他の値を破棄し、データを拡張し、データアイテム間の関係を形成し、他の値を無視しました。破棄された情報を必要とする新しいビジネス問題が発見された場合ビジネス環境は常に変化しており、将来の問題を予測することはできません。現在のビジネス問題セットに対してETLプロセスがどれほど正確であっても、将来の潜在的な価値は非常に大きくなります。データウェアハウスにデータを入力するときにこれらの決定を行うことで失われます。

データレイクを入力

可能な限り多くの潜在的な価値を保持するために、元のデータを破棄することはできません。すべてのデータを未加工の形式で保持し、後で使用する方法を決定してみませんか?データを川のように中央のリポジトリに流し込み、「データ」の「湖」を形成することができます。 :)別の言い方をすれば、データを抽出して保存し、必要に応じてデータを変換してロードします(ELTと呼ばれることもあります。ETLでは「T」と「L」を入れ替えます)。

歴史的に、将来のある時点でのストレージと意味のある構造の抽出のコストは、そこに含まれる可能性のある情報の潜在的な価値をはるかに上回りましたが、ストレージのコストと有用な構造を混沌から抽出するコストは低下し、より多くの人々にとってますます経済的になっています。より多くの企業がまさにそれを実行します。

生データのコレクションはデータレイクですよね?

わかりました、簡単です。すべての生データを1つの場所にダンプするだけで、完了しますよね?それからは程遠い!データの取り込みは、顧客、企業、およびデータを保護すると同時に、将来のデータサイエンティストやアナリストが利用できるようにするために適切に実行する必要があります。これを行うには、多くの重要な要素を考慮する必要があります。

  • 将来のデータサイエンティストやアナリストは、探しているものをどのように見つけるのでしょうか?生データはインデックスに登録する必要があります。

  • どうすれば効率的な方法でデータを抽出できますか? データは、列形式などの効率的なファイル形式で保存する必要があります。

  • 個人情報(PII)、保護された健康情報(PHI)、カード会員データ(CD)、およびその他の機密データについてはどうですか? データの難読化が必要です。

  • データのプライバシー(GDPRなど)、データの主権、アクセスの制御をどのように処理して、別のデータ侵害の見出しにならないようにしますか? 適切な権限とアクセス制御を適用するには、IDとアクセスの管理を実装する必要があります。

一部の識別キーを共有しない重複排除または一致するレコードはどうですか? 123 Main St、Some Town、USA 123 Main Street、Some Town、USAと同じ場所 ? ロバートスミスはどうですか およびボブスミス ?ご想像のとおり、これらは単純なシナリオです。実際のデータセットには、はるかに複雑な状況が存在します。

データがデータレイクに配置され、適切なインデックス作成とコントロールが適切に配置されたら、使用する前に構造化形式に変換する必要があります。通常、これは、読み取られるときにジャストインタイムスキーマを適用することを意味します。さまざまな生のソース形式が既知の構造に投影されるため、ML、ウェアハウジング、またはビジネスインテリジェンス(BI)システムで使用できます。 (私はこのプロセスをEtS-TL、Extract transform Store – Transform and Loadと呼ぶことを好みます。これは、データが湖に入るときに損失のないデータ変換が実行されるためです。ただし、命名法の議論は別のトピックです。)

データの使用

データは現在湖にありますが、現在の形式では使用できません。遅延したデータ変換の決定は、ここで決定する必要があります。スキーマが決定され、データが抽出されたら、スキーマ固有の方法でクリーンアップする必要があります。あるスキーマ/分析の無効なデータは、別のスキーマ/分析に対して完全に有効である可能性があります。たとえば、所有者の名前、プロパティアドレス、プロパティ値、支払い延滞、土地利用(住宅、オフィスビル、工業用など)を含む土地所有権データセットについて考えてみます。土地利用と支払い延滞の間に相関関係があるかどうかを判断するのに、所有者の名前は必要ありません。同時に、資産価値と土地利用の間の相関関係を探すために、延滞データは必要ありません。あるデータスライスの行にデータ項目がない場合でも、別のデータスライスの同じ行が無効になることはありません。データレイクを使用すると、データ分析オプションを開いたままにすることができますが、データレイクには独自の複雑さとコストが伴います。

これらのすべての手順が完了すると、データ分析ツール、BIシステム、またはMLモデルが作業を開始できるようになります。ただし、adata Lakeを活用することで、データに含まれる潜在的な将来価値を誤って破壊することはありません。将来のビジネス上の質問は、将来を知る必要なしに調査できます。

概要

データウェアハウスはフィルタリングされ、準備され、すぐに使用できる状態になっていますが、データレイクはリザーバーであり、そのままの形で使用することを目的としたものではありません。代わりに、それらのデータは、消費する前に準備する必要があります。他の貯水池と同様に、将来の消費に利用できるように適切に管理する必要があります。これは、流入の管理(ストレージファイル形式とデータの難読化)、コンテンツの理解(インデックス作成と重複排除)、誤用からの保護(IDおよびアクセス管理)、および浄化機能(データ抽出、スキーマの適用、データクリーニング)を通じて行われます。

氷山の先端

幸いなことに、クラウドの時代では、データレイクを実装するために独自のツールやテクノロジーを導入する必要はありません。たとえば、AWS LakeFormationは、データレイク自体に直接関連するツールとテクノロジーの問題に対処します。しかし、難しい質問がたくさん残っています。これらのツールを適切に使用する方法を知っていますか?データの推定を許可するための適切なネットワーク接続を設定するための専門知識がありますか? VPNで十分ですか、それとも専用回線(ダイレクトコネクト)が必要ですか?会社のデータの金鉱をクラウドに入れていますが、不正アクセスを防ぐために適切に保護されていますか?費用対効果の高い方法でデータにアクセスしていますか?転出は無料ではないことを忘れないでください。

Rackspaceには、クラウドアーキテクトと専門知識があり、データレイクを迅速、安全、効率的に稼働させるのに役立ちます。詳細については、RackspaceManagedAWSに電話をかけてください。

[フィードバック]タブを使用して、コメントを書き込んだり、質問したりします。


  1. 難読化されたサーバーとは何か、なぜそれが必要なのか?

    サイバーセキュリティは、今日の時代における重要な懸念事項です。ハッカーや侵入者は、私たちのデジタル ライフに何らかの方法で侵入するための巧妙な手口を見つけています。私たちが彼らの悪質な罠にはまり、瞬く間に機密データを破壊するのは時間の問題です。 サイバー犯罪活動、悪意のある脅威、ウイルスが増加しているため、VPN サービスを使用してオンライン活動を保護することが必須になっています.これが、Web 上で安全な接続を確立できるようにするため、ここ数年で VPN が過度に普及した理由です。 VPN の助けを借りて、侵入者やサードパーティの Web サイト トラッカーから実際の IP アド

  2. iPhone の Wi-Fi アシストとは何か、無効にする理由

    Wi-Fi Assist は、信号強度が低いためにインターネットに接続できない場合に役立ちます。オンライン動画やビデオ通話を視聴している場合、モバイル データと Wi-Fi 接続を自動的に切り替えてストリーミングを維持するので便利です。 ただし、モバイル データに高い料金を支払っている場合は、Wi-Fi 信号が弱い場合にモバイル データも使用する可能性があるため、この機能でギャンブルをするべきではありません。これは、モバイルの請求額に大きな驚きをもたらす可能性があります.したがって、iPhone でこの機能を無効にすることをお勧めします。方法は次のとおりです。 設定を起動 iPhone のホ