-
相関ルール学習とは何ですか?
相関ルール学習は、あるデータ要素が別のデータ要素に依存しているかどうかをテストし、費用対効果が高くなるように適切に設計する、一種の教師なし学習手法です。データセットの変数間のいくつかの興味深い関係または関連を発見しようとします。データベース内の変数間の興味深い関係を見つけるには、さまざまなルールに依存します。 相関ルール学習は、機械学習の最も重要なアプローチであり、マーケットバスケット分析、Web使用マイニング、連続生産などで使用されます。マーケットバスケット分析では、複数の大手小売業者が相互の関係を見つけるために使用するアプローチです。アイテム。 Webマイニングは、インターネットへの適
-
頻繁なアイテムセットをマイニングするのは難しいタスクは何ですか?
データマイニングは、統計的および数値的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のレコードを転送することにより、有用な新しい相関関係、パターン、および傾向を発見するフェーズです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。 これは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。 データマイニングはデータサイエンスに似ています。それは、特定の状況で、特定のデータセットに対して、目的を持
-
ETLとは何ですか?
ETLは、抽出、変換、および読み込みの略です。これは、データ駆動型の組織が複数のソースからデータを収集し、それをまとめて発見、レポート、分析、および意思決定をサポートするために使用するプロセスです。 データソースは、タイプ、形式、量、および信頼性が異なる可能性があるため、一緒に配信するときに役立つようにデータを処理する必要があります。ターゲットデータストアは、目的と技術的な実行に基づいて、データベース、データウェアハウス、またはデータレイクになります。 ETLには、次のような次の手順があります- 抽出 −抽出中に、ETLはデータを認識し、そのソースから複製するため、データをターゲットデータ
-
ELTとは何ですか?
ELTは、Extract、Load、およびTransformの略です。これは、ソースサーバーからターゲットサーバー上のデータシステム(データウェアハウスやデータレイクなど)に生データを転送し、ダウンストリームで使用するためにデータをフィッティングするためのデータ統合プロセスです。 抽出およびロード手順は、変換フェーズから分離できます。ロードフェーズを変換プロセスから分離すると、これらのフェーズ間の固有の依存関係が削除されます。変換に必要なデータを含めることができ、抽出およびロードプロセスには、将来不可欠になる可能性のあるデータの要素を含めることができます。ロードプロセスでは、ソース全体を取得
-
ETLとELTの違いは何ですか?
ETL ETLは、抽出、変換、および読み込みの略です。これは、データ駆動型の組織が複数のソースからデータを収集し、それをまとめて発見、レポート、分析、および意思決定をサポートするために使用するプロセスです。 データウェアハウスを作成することは、単に複数のソースからデータを抽出し、それをデータウェアハウスのデータベースにロードすることであると考えたくなります。 ETLプロセスには、開発者、アナリスト、テスター、トップ管理者など、複数の利害関係者からの積極的なインプットが必要であり、技術的に困難です。 意思決定者のためのツールとしての価値をサポートできます。データウェアハウスシステムは、ビ
-
ビジネスインテリジェンスとは何ですか?
ビジネスインテリジェンスは、生データを費用効果の高いビジネスサービスを推進する重要な情報に変更する手順、メカニズム、およびテクノロジーのコレクションです。これは、データを実用的なインテリジェンスと認識に変更するためのソフトウェアとサービスのコレクションです。 BIは、組織の方法、戦術的および運用上のビジネス上の意思決定に明確な影響を及ぼします。 BIは、仮定や直感ではなく、履歴データを使用した事実に基づく意思決定をサポートします。 BIツールは、データ分析を実装し、ドキュメント、要約、ダッシュボード、マップ、グラフ、およびチャートを作成して、ビジネスの機能に関する詳細なインテリジェンスでユー
-
記述的データマイニングと予測的データマイニングの違いは何ですか?
記述的データマイニング 記述的マイニングは、一般に、相関、クロス集計、頻度などを提供するために使用されます。これらの方法は、データの規則性を決定し、パターンを明らかにするために使用されます。これは、記録の要約と、レポートおよび監視のための重要なデータへの変換に焦点を当てています。 記述的マイニングはデータを「記述」します。データがキャプチャされると、人間が解釈できる形式に変更できます。記述的データマイニングにおいて、Aprioriアルゴリズムを使用して生徒の成績を特徴付け、一連のアイテム間の相互関係を見つける関連付け手法。 Aprioriアルゴリズムは、複数の学生の学業成績を含むデータベ
-
空間データマイニングと時間データマイニングの違いは何ですか?
空間データマイニング 空間データマイニングは、データマイニングを空間モデルに適用することです。空間データマイニングでは、アナリストは地理的または空間的な記録を使用して、ビジネスインテリジェンスまたは複数の結果を作成します。これには、地理情報を関連性のある有用な形式に取得するための特定の技術とリソースが必要でした。 空間データの進化と空間データベースの広範な使用により、空間知識の発見が支配されてきました。空間データマイニングは、空間データベースから驚くべき仮想的に価値のあるパターンを決定するプロセスとして学習できます。 空間データマイニングには、パターンの認識や、研究プロジェクトを推進する
-
大規模なデータベースの概念記述とOLAPの違いは何ですか?
コンセプトの説明 概念の説明は、データマイニングの決定的なタイプです。頻繁な購入者、卒業生の候補者などを含む一連のデータを定義します。データの特性評価と比較について説明します。説明する概念がオブジェクトのクラスとして定義されている場合は、クラスの説明とも呼ばれます。これらの説明は、データの特性評価をサポートして決定できます。 データの特性評価は、ターゲットクラスのデータの一般的な特性を要約したものです。特定のユーザー定義クラスに関連するデータは、通常、データベースクエリによって回復されます。データ特性の出力は、棒グラフ、曲線、円グラフ、ライブグラフなどのいくつかの形式で表示できます。 特
-
アソシエーションルールの仕組みは何ですか?
相関ルール学習は、あるデータ要素の別のデータ要素への依存性をテストし、より効果的になるように適切に作成する教師なし学習方法の一種です。データセットの変数間のいくつかの興味深い関係または関係を発見しようとします。データベース内の変数間の興味深い関係を見つけるには、いくつかのルールに依存します。 相関ルール学習は機械学習の重要な手法であり、マーケットバスケット分析、Web使用マイニング、連続生産などで使用されます。マーケットバスケット分析では、複数の大手小売業者がアイテム間の関係を見つけるのに適しています。 マーケットバスケット分析では、ユーザーが買い物かごに入れるさまざまなアイテム間の関連性
-
凝集的クラスタリングアルゴリズムとは何ですか?
凝集クラスタリングはボトムアップクラスタリング手法であり、クラスターにはサブクラスターがあり、サブクラスターにはサブクラスターなどがあります。まず、各オブジェクトをクラスターに配置し、これらのアトミッククラスターを、すべてのオブジェクトが個々のクラスター内、または明確な終了条件が必要になるまで。このタイプに使用されるいくつかの階層的クラスタリング手法。クラスター間の類似性の説明でのみ区別されます。 たとえば、AGNES(Agglomerative Nesting)と呼ばれるメソッドは、シングルリンク技術を必要とし、次のように動作します。長方形に配置されたオブジェクトのグループがあると考えてく
-
データの一般化と分析の一般化の例は何ですか?
データの一般化は、比較的低レベルの値(属性年齢の数値を含む)を高レベルの概念(若年、中年、および上級を含む)に置き換えることによってデータを要約します。したがって、これは、データベース内のタスク関連情報の膨大なセットを、比較的低い概念レベルからより高い概念レベルに抽象化するプロセスです。 以下は、大規模なデータセットを効率的かつ柔軟に一般化するための2つのアプローチです- OLAPアプローチ −データキューブテクノロジーは、データウェアハウスベースの事前計算指向のマテリアライズドビューアプローチとして扱うことができます。 OLAPまたはデータマイニングクエリが処理のために移動される前に、オ
-
異なるクラスを区別する方法は?
階級差別は階級差別として定義されています。それは社会階級に基づく偏見または差別です。それには、上流階級に下層階級としての利益をもたらすように設定された個人の態度、行動、方針の体系、および慣行が含まれます。 人種差別という用語が厳密に個人的偏見または制度的人種差別のいずれかを定義できるのと同様に、階級差別は下層階級および制度的階級に対する個人的偏見を定義することができます。後者は、私たちの社会のいくつかの制度において、意識的または無意識的な階級差別がいかに明確であるかとして表されてきました。」 階級差別は、テレビ番組、映画、ソーシャルメディアなどのいくつかの形式のメディアで見ることができます
-
なぜ分析的特性評価と属性関連性分析が必要なのか、そしてこれらをどのように実行できるのか?
これは、データを前処理して、関連性のない属性を除外したり、関連性のある属性をランク付けしたりするための統計的アプローチです。属性関連性分析の測定値を使用して、概念記述プロセスから許可されていない可能性のある無関係な属性を認識することができます。この前処理ステップをクラスの特性評価または比較に組み込むことは、分析的な特性評価として定義されます。 データ識別は、ターゲットクラスと対照クラスとして定義された2つのクラス間のオブジェクトの一般的な機能の比較である識別ルールを作成します。 これは、ターゲティングクラスデータオブジェクトの一般的な特性と、1つまたは一連の対照的なクラスのオブジェクトの一
-
大規模なデータベースの統計的尺度とは何ですか?
リレーショナルデータベースシステムは、count()、sum()、avg()、max()、min()などの5つの組み込み集計関数をサポートしています。これらの集計関数は、多次元情報の記述的マイニングの基本的な手段として使用できます。中心傾向の測定値とデータ分散の測定値など、2つの記述統計測定値があり、高多次元データベースで効果的に使用できます。 中心傾向の測定 −平均、中央値、最頻値、ミッドレンジなどの中心傾向の測定値。 平均 −算術平均は、すべての値を挿入し、それらを値の数で除算するだけで評価されます。すべての値のデータを使用します。 x 1とします 、x 2 、... x n
-
分割アルゴリズムの種類は何ですか?
分割アルゴリズムには次の2種類があります- K-クラスタリングを意味します − k-meansクラスタリングは、最も一般的なパーティショニングアルゴリズムです。 K-meansは、データセット内の各データを、形成された新しいクラスターの1つだけに再割り当てします。レコードまたはデータポイントは、距離または類似性の尺度を使用して最も近いクラスターに割り当てられます。 K-meansクラスタリングで使用される次の手順があります。 K個の初期クラスター重心c1を選択できます 、c 2 、c 3 ...。 c k 。 重心がxに最も近いSクラスター内の各インスタンスxを割り当
-
教師なし学習の例は何ですか?
教師なし学習とは、ラベルのないデータのセットを提供できる場合です。このデータは、内部のパターンを分析して見つけるために必要です。例としては、次元削減とクラスタリングがあります。トレーニングは、ラベル付け、分類、または分類されていないデータのグループと、監視なしでそのデータを容易にするために必要なアルゴリズムを使用して、マシンでサポートされます。教師なし学習の目的は、入力レコードを新しい機能または同じパターンのオブジェクトのセットに再構築することです。 クラスター分析は、これらのレコードに対して行われたさまざまな測定に応じて、同じレコードのグループまたはクラスターを形成するために使用されます。
-
STINGグリッドベースのクラスタリングとは何ですか?
グリッドベースのクラスタリング手法は、多重解像度グリッドデータ構造を使用します。オブジェクト領域を有限数のセルに量子化し、グリッド構造を形成します。このグリッド構造に、クラスタリングのすべての操作が実装されます。この方法の利点は、処理時間が短いことです。これは、一般にデータオブジェクトの数に依存せず、量子化された空間の各次元の複数のセルのみに依存します。 グリッドベースのクラスタリングは、多重解像度グリッドデータ構造を使用し、高密度グリッドセルを使用してクラスターを形成します。 STING、wave cluster、CLIQUEなどの興味深い方法がいくつかあります。 スティング −統計情報
-
進化的テクノロジーとは何ですか?
進化的アルゴリズムは、生物の行動を模倣するプロセスを採用することで問題を解決する、進化的AIベースのコンピューターソフトウェアです。そのため、生殖、突然変異、組換えなど、一般的に生物学的進化に関連するメカニズムが必要です。 データ抽出および変換ツールの例は、進化的テクノロジーのETL-EXTRACTツールスイートです。抽出は、データウェアハウス環境でさらに役立つ情報をソースシステムから抽出するサービスです。これは、ETLプロセスの最初の手順です。抽出後、このデータを変更してデータウェアハウスにロードできます。 データ抽出のプロセスには、乱雑なデータソースからの情報の取得が含まれます。データ
-
MBRの要素は何ですか?
MBRには次のようなさまざまな要素があります- トレーニングセットの選択 −トレーニングセットには、この目標のためのニュース検索サービスによってサポートされた49,652のニュース記事が含まれていました。これらの記事は、約3か月のニュースと約100の複数の情報源から掲載されています。 各ストーリーには、平均して2,700語が含まれ、8つのコードが作成されました。トレーニングセットは特に作成されていないため、トレーニングセットのコードの頻度は大きく異なり、ニュース記事のコードの完全な頻度を模倣しています。 距離関数の選択 −次のフェーズは、距離関数を選択することです。この方法では、距離関数が存在