データ統合とは何ですか?
データ統合は、いくつかの異なるソースからのデータを結合するフェーズです。データ統合を実装する際には、データの冗長性、不整合、重複などに対処する必要があります。データマイニングでは、データ統合は、多数の異種データソースからのデータをコヒーレントデータにマージして、統合された視点を保持およびサポートするデータ前処理技術です。情報の。
さまざまなソースからのデータを、データウェアハウジングを含む一貫したデータストアに結合します。これらのソースには、複数のデータベース、データキューブ、フラットファイルなどが含まれる可能性があります。データ統合時に考慮すべき問題が複数あります。
-
スキーマの統合とオブジェクトの照合は複雑になる可能性があります。たとえば、エンティティID(1つのデータベースのemp_idと別のデータベースのemp_no)を照合すると、メタデータを使用してこのような問題を防ぐことができます。
-
冗長性は別の問題です。たとえば、年収を含む属性は、別の属性または属性のセットから派生できる場合、冗長になる可能性があります。属性またはディメンションの命名に矛盾があると、表示されるデータセットに冗長性が生じる可能性もあります。
-
いくつかの冗長性は、相関分析によって発見できます。 2つの属性が与えられた場合、そのような分析では、利用可能なデータに基づいて、一方の属性がもう一方の属性をどの程度強く示唆しているかを計算できます。数値属性の場合、相関係数(発明者であるカールピアソンにちなんで名付けられたピアソンの積率係数とも呼ばれます)を計算することにより、2つの属性AとBの間の相関を評価できます。これは
$$ r_ {A、B} =\ frac {\ sum_ {i =1} ^ {n}(a_ {i} -A ^ {'})(b_ {i} -B ^ {'})} {N \ sigma _ {A} \ sigma _ {B}} =\ frac {\ sum_ {i =1} ^ {n}(a_ {i} b_ {i})-NA ^ {'} B ^ {'}} {N \ sigma _ {A} \ sigma _ {B}} $$
ここで、Nはタプルの数、a i およびbi タプルi、A ’ のAとBのそれぞれの値です。 およびB ’ AとBのそれぞれの平均値、σ A およびσB AとBのそれぞれの標準偏差とΣ(a i b i )は、ABの外積の合計です。つまり、各タプルについて、Aの値にそのタプルのBの値を掛けます。
相関関係は因果関係を意味するものではありません。つまり、AとBが相関している場合、これは必ずしもAがBを引き起こす、またはBがAを引き起こすことを意味するわけではありません。たとえば、人口統計データベースの分析では、複数の病院と複数の車の盗難を定義する属性を見つけることができます。地域は相関しています。これは、一方が他方を引き起こすことを定義するものではありません。どちらも通常、人口などの3番目の属性に関連しています。
データ統合における3番目の重要な問題は、データ値の競合の検出と解決です。たとえば、同じ実世界のエンティティの場合、複数のソースからの属性値が異なる可能性があります。これは、表現、スケーリング、またはエンコーディングの違いが原因である可能性があります。
-
データセンターとは何ですか?
datacenterと綴られることもあるデータセンター (一言)は、多数のコンピュータサーバーと関連機器を含む施設に付けられた名前です。 データセンターは、壁を超えた「コンピュータールーム」と考えてください。会社のユーザー宛てのメール、財務記録、ウェブサイトのデータなど、あらゆる種類のデータを保存できます。 データセンターは何に使用されますか? 一部のオンラインサービスは非常に大きいため、1台または2台のサーバーから実行できません。代わりに、これらのサービスを機能させるために必要なすべてのデータを保存および処理するために、数千または数百万台の接続されたコンピューターが必要です。 たと
-
シリアル化とは
最近のプロジェクト更新会議で、私のチームは、シリアライゼーションを使用してこのアプリケーションとの間でデータをやり取りする方法について話しました。 ソフトウェア プロジェクトにもっと関わりたいと考えていたあるエンジニアは、この用語になじみがないと言っていました。 より大規模なプロジェクトに飛び込むまで発生しない、このような重要なプロセスを見落としがちです。ある時点で私がそうであったように、これはこの人に当てはまりました。 だからそれについて書きたかった。その日、私は同僚がシリアライゼーションについて学ぶのを手伝いました。あなたは今日それについて学ぶことになります. シリアライゼーシ