PolyBaseによる統合データプラットフォームとデータ仮想化:パート1
以前のブログ投稿であるUnifiedDataPlatform-SQL2019を最終的に構築できることに興奮しています。
このシリーズでは、PolyBase®を使用してデータ仮想化を実現する方法を深く掘り下げます。この投稿では、導入とデモの前提条件、およびデモ自体のパート2について説明します。
記憶をリフレッシュするために、前の投稿で次の項目が取り上げられたことを思い出してください。
- DBエンジンから統合データプラットフォームへのSQLServer®の進化
- SQL 2019は、以下を使用して統合データプラットフォームを提供します:
- OLTP用SQLDBエンジン
- ポリベースによるデータ仮想化
- 列指向ストアを介したデータマート
- HDFSによるデータレイク
- ビッグデータ、ML、ApacheSparkを介したストリーミング
- Azure®DataStudio(ADS)を使用した管理と監視
データは遍在しているため、データを別の場所に移動またはコピーしてさらに処理するという課題に常に直面しています。データセットが小さい場合、これは十分に簡単ですが、データサイズが増え続けると問題になる可能性があります。また、組織によるデータマイニングの漸進的な増強により、データリーダーはデータを1か所に保持することを推奨していません。同様に、構造化データと非構造化データおよびビッグデータのさまざまなデータストアからデータをフェッチまたは使用するのは面倒な場合があります。
データの仮想化 この問題の解決策です。
データ仮想化は、アプリケーションがデータに関する技術的な詳細を必要とせずにデータを取得および操作できるようにするデータ管理へのアプローチです。たとえば、データがソースでフォーマットされているか、物理的に配置されていることを示します。データ全体の単一のカスタマービューを提供できます。
市場には、次のツールなど、多くのデータ仮想化ツールがあります。
- Microsoft®Polybase®
- Actifio®仮想データパイプ(VDP)
- Informatica®Powercenter
- IBM®CloudPakforData
- RedHat®JBossデータ仮想化
このシリーズでは、MicrosoftがSQL 2016で導入し、後続の各SQLバージョンで改善されたPolyBaseに焦点を当てます。
Polybaseを使用すると、SQL Serverは、Azure®Blob、Hadoop®、Oracle®、MongoDB®などの外部データソースでTransact-SQLクエリを実行できます。外部データの処理に使用されるのと同じTransact-SQLは、リレーショナルデータベースでも実行できます。この機能は、外部ソースからのデータをデータベース内のリレーショナルデータと統合するのに役立ちます。次の画像は、SQLポリベースの簡単な図を示しています。
図1
Polybaseの基本を理解したので、SQLPolyBaseを使用してAzureBLOB外部ソースからデータをフェッチするデモを共有したいと思います。この投稿では、デモの前提条件について説明します。
デモを実行する前に、次の前提条件タスクを実行する必要があります。
- PolyBase機能を使用してSQL2016以降をインストールします。
- SQLServerでPolyBaseを有効にします。
- AzureStorageアカウントを作成します。
- AzureBLOBコンテナーを作成します。
- データファイルをblobコンテナに配置します。
1。 SQLPolybaseをインストールする
1台のマシンにSQLインスタンスを1つだけ使用してPolybaseをインストールできます。
現在、ローカルマシンで実行されているデフォルトのSQL2019インスタンスが1つあります。ただし、インストール中にPolybaseを選択しませんでした。次の画像は、SQLServer構成マネージャーを示しています。
図2
Polybaseをインストールするには、SQLセットアップを再実行し、機能選択ウィンドウで次の要素を選択する必要がありました。
- 外部データ用のPolyBaseクエリサービス
- HDFSデータソース用のJavaコネクタ
先に進み、SQLセットアップを実行し、次の手順を実行してPolyBase機能をインストールします。 次へをクリックし続けます 最後の画面に到達するまで。次に、インストールの完了をクリックします タブ、濃い赤で強調表示されたタブを選択します。
- [インストール]をクリックします サイドバーで[新しいSQLServerスタンドアロンインストールまたは既存のインストールに機能を追加する]を選択します 。
図3
- インストールタイプに到達した後 ウィンドウで、既存のインスタンスに機能を追加するを選択します 、ドロップダウンメニューから必要なインスタンスを選択します。
図4
- 機能の選択に到達した後 ウィンドウで、PolyBase機能を選択します。
図5
- ポリベース構成 ウィンドウで、このSQLServerをスタンドアロンのPolybase対応インスタンスとして使用するを選択します 。
図6
- 残りのサイドバーオプションについては、デフォルトを選択し、インストールをクリックします 。インサイレーションが完了すると、次のウィンドウが表示されます。
図7
この時点で、SQL構成マネージャーで、さらに2つの機能がインストールされていることがわかります。ただし、PolybaseがSSMSにインストールされていませんというエラーメッセージが表示される場合があります。 Polybaseを有効にしようとしている間。これを修正するには、Polybaseのインストール後にサーバーを再起動します。
図8
2。 SQLポリベースを有効にする
PolyBaseを有効にするには、次の手順を実行します。
-
SSMSでSQLServerに接続し、次のクエリを実行して、Polybaseが正常にインストールされたことを確認します。
SELECT SERVERPROPERTY ('IsPolyBaseInstalled') AS IsSuccessfullyInstalled;
次の画像は、正常にインストールされた場合の出力を示しています。
図9
-
次のクエリを実行して、Polybaseを有効にします。
EXEC sp_configure 'polybase enabled', 1; Go
-
次のクエリを実行します:
Reconfigure
このクエリは重要です。この手順を実行しないと、このシリーズのパート3で説明する手順で外部ファイル形式の作成中にエラーが発生する可能性があります。
図10
3。 Azureストレージアカウントを作成する
次の手順を実行して、AzureStorageアカウントを作成します。
-
クレデンシャルを使用してAzureポータルにログインします。
-
Azureストレージアカウントサービスを検索し、次の手順を実行してストレージアカウントを作成します。 次へをクリックし続けます 最後の画面に到達するまで。次に、レビューと作成をクリックします オプション。濃い赤で強調表示されているタブを選択します。
-
Azureポータル検索バー 、Azureストレージアカウントを選択します +追加をクリックします 新しいストレージアカウントを作成します。
図11
- 基本について タブで必要な詳細を入力し、[次へ:ネットワーク]をクリックします 。
図12
-
ネットワークのデフォルト設定を維持します 、データ保護 、詳細 strong> 、およびタグ 画面。
-
次に、レビュー+作成をクリックします 検証が成功したら、[[タブの作成]をクリックします 次の画像に示すように、ストレージアカウントを作成します。
図13
- 導入が成功したら、[リソースに移動]をクリックします 、作成されたストレージアカウントに移動します。
図14
4。 Azureコンテナを作成する
Azureコンテナーを作成するには、作成したAzureストレージアカウントに移動し、コンテナーをクリックします。 左側のペインで、[ + Container ]をクリックします 。
図15
5。コンテナにデータファイルを配置します
この段階で、テキストデータファイルを作成してコンテナにアップロードします。
- 次のファイルのようなテキストファイルを作成します:
図16
注 :CSV、Excel®、またはその他の外部データソースを使用することもできます。ただし、外部データソースによっては、いくつかの追加手順を実行する必要があります。たとえば、CSVまたはExcelデータソースの場合、SQL Serverに適切なドライバーをインストールし、接続プロパティをODBCデータソース名(DSN)に追加する必要があります。 Microsoft ODBCData Source Administratorを使用して、ODBCDSNを作成および構成できます。
- 作成したコンテナ、 polybasedemocontainerに移動します 、[アップロード]をクリックします 、右側のフォルダアイコンをクリックし、アップロードするファイルを選択します。
図17
PolyBaseデモの前提条件が正常に完了しました。パート2でデモを紹介します。
コメントや質問をするには、[フィードバック]タブを使用します。私たちと会話を始めることもできます。
-
DBAとデータアーキテクトの進化
企業の顧客、従業員、およびパートナーがユーザーフレンドリーなシステムを介してデータに簡単にアクセスできる場合、データベース管理者とデータアーキテクトの2人に感謝します。十分に構築されたデータベースが潜在的に数千または数百万のユーザーに対して確実かつ安全に機能することを保証することは大きな責任であり、あらゆる業界の企業は、データアーキテクトとDBAに依存して、それらを使用するすべてのユーザーのニーズを満たすデータネットワークを設計および監視します。 ビジネスコミュニティのデータニーズが急増するにつれて、最新のデータベーステクノロジーに対応するために必要なスキルも拡大しています。これらの役割の
-
データのプライバシーとそれがあなたに与える影響
イーロン・マスクは、地球の未来に関して多くの人に希望を新たに与えました。したがって、ケンブリッジ・アナリティカのスキャンダルを受けてフェイスブックのページとプロフィールを持っているというランダムなツイッターのフォロワーによる挑発に直面したとき、イーロンは彼にしか期待できないことをした。彼は、そのページを削除するとコメントした。そして、彼が行ったページを削除してください。 Facebook は、データ漏洩スキャンダル全体に対して多くの反発に直面していますが、利益のためにユーザー データを販売することに興味を持っているのは Facebook だけではないため、この話にはあまり知られていません。さ