-
データマイニングは、情報処理やオンライン分析処理とどのように関連していますか?
データウェアハウスアプリケーションには、情報処理、分析処理、データマイニングの3種類があります。 情報処理 −クロス集計、表、チャート、またはグラフを使用したクエリ、基本的な数値分析、および文書化を提供します。データウェアハウスのデータ処理における最近の傾向は、Webブラウザと統合された低コストのWebベースのアクセスツールを作成することです。 分析処理 −スライスアンドダイス、ドリルダウン、ロールアップ、ピボットなどの基本的なOLAP操作を提供します。これは通常、要約された形式と詳細な形式の両方の履歴情報に作用します。情報処理よりもオンライン分析処理の主な分野は、データウェアハウスデータ
-
データキューブ計算の手法は何ですか?
以下は、データキューブを効率的に計算するための一般的な最適化手法です。- 並べ替え、ハッシュ、グループ化 −関連付けられたタプルを並べ替えてクラスター化するには、ディメンション属性に対して並べ替え、ハッシュ、およびグループ化の操作を使用する必要があります。キューブ計算では、類似したディメンション値のセットを共有するタプルに集計が実装されます。したがって、そのような集計の評価をサポートするために、そのようなデータにアクセスしてグループ化するには、並べ替え、ハッシュ、およびグループ化サービスを分析することが不可欠です。 支店、日、アイテムごとの総売上高を計算できます。タプルまたはセルをブランチ
-
パターンマイニングのアプリケーションは何ですか?
パターンマイニングには、次のようなさまざまなアプリケーションがあります- パターンマイニングは、一般に、いくつかのデータ集約型アプリケーションでの前処理として、ノイズフィルタリングとデータクリーニングに使用されます。たとえば、数万の次元(たとえば、遺伝子の記述)を含むマイクロアレイデータを探索するために使用できます。 パターンマイニングは、データに隠された固有のメカニズムとクラスターの発見を提供します。たとえば、DBLPデータセットを考えると、頻繁なパターンマイニングでは、共著者クラスター(一般的に共同作業を行う著者を決定する)や会議クラスター(複数の著者と用語の共有を決定する)などの興味
-
インタラクティブな意思決定ツリーの構築をサポートするために、データをどのように視覚化できますか?
知覚ベースの分類(PBC)は、多次元の視覚化手法に基づくインタラクティブな手法であり、ユーザーが意思決定ツリーを構築するときにデータに関する背景知識を組み込むことができます。 データと光学的に相互作用することにより、ユーザーはデータのより深い学習を生み出す可能性があります。結果として得られるツリーは、従来の決定木誘導手法を利用した構造よりも小さい可能性が高いため、ほぼ同様の精度を達成しながら、解釈が簡単になります。 PBCは、クラスラベルデータで多次元データを考慮するためにピクセル指向の方法を必要とします。円セグメント法が採用されており、d次元の情報オブジェクトを、それぞれが1つの属性を定
-
ベイジアンビリーフネットワークとは何ですか?
単純ベイズ分類器は、クラスの条件付き独立性を前提としています。つまり、タプルのクラスラベルが与えられると、属性の値は条件付きで互いに独立していると見なされます。これにより、計算が簡素化されます。 したがって、仮定が真に影響を与える場合、単純ベイズ分類器は複数の分類器と比較して効率的です。ベイジアンビリーフネットワークは、共同の条件付き確率分布を定義します。 これらにより、クラスの条件付き独立性を変数のサブセット間で表すことができます。それらは、学習を実装できる因果関係のグラフィカル構造をサポートします。訓練されたベイジアン信念ネットワークが分類に使用されます。ベイジアン信念ネットワークは、
-
アクティブラーニングとは何ですか?
アクティブラーニングは、データが十分であるが、クラスラベルの取得が不足しているか、コストがかかる状況に関連する、反復型の教師あり学習です。学習アルゴリズムは、ユーザー(たとえば、個人のオラクル)にラベルを注意深く照会できるという点でアクティブです。この方法の概念を理解するために使用される複数のタプルは、通常の教師あり学習で必要な数よりも少なくなります。 これは、コストを抑えるために使用されます。アクティブラーニングの目的は、ラベル付けされた例をできるだけ少なくして、高精度を達成することです。検討中のすべてのデータをDとします。 Dでアクティブラーニングを続けるにはいくつかの方法があります。
-
高次元データから部分空間クラスターを見つけるにはどうすればよいですか?
部分空間検索手法、相関ベースのクラスタリング手法、バイクラスタリング手法など、いくつかの方法が3つの主要なグループに分類されています。 部分空間検索手法 −部分空間検索メソッドは、クラスターのいくつかの部分空間を検索します。したがって、クラスターは、部分空間で互いに同じであるオブジェクトのサブセットです。類似性は、距離や密度などの従来の測定によって取得されます。 たとえば、CLIQUEアルゴリズムは部分空間クラスタリング手法です。次元が増加する系列の部分空間とそれらの部分空間のクラスターを指定でき、非単調性を使用して、クラスターが継続できない部分空間を剪定します。部分空間検索手法が直面するより
-
2部グラフの用途は何ですか?
2部グラフでは、頂点を2つの互いに素なセットに分割して、各エッジが1つのセットの頂点を複数のセットの頂点に接続することができます。 AllElectronicsユーザー購入データの場合、頂点の1つのセットがユーザーを定義し、頂点ごとに1つのユーザーが含まれます。複数のセットは製品を定義し、頂点ごとに1つの製品があります。エッジはユーザーを製品にリンクし、ユーザーによる製品の購入を定義します。 2部グラフには次のようなさまざまな用途があります- ウェブ検索エンジン − Web検索エンジンでは、検索ログはデータユーザークエリと対応するプレススルーデータにアーカイブされます。 (プレススルーデー
-
ハブページを使用して信頼できるページを見つけるにはどうすればよいですか?
ハブは、当局への一連のリンクをサポートする一連のWebページです。ハブページを目立たせることはできません。または、ハブページを指すリンクがいくつか存在する可能性があります。ただし、一般的なトピックに関する一連の著名なサイトへのリンクをサポートしています。 このようなページは、コースのホームページからの推奨参照サイトや、商用サイトの専門的にまとめられたリソースドキュメントなど、単一のホームページでの推奨接続のリストにすることができます。ハブページは、対象となるトピックについて暗黙的に権限を与えるという重要な役割を果たします。 一般に、優れたハブとは、いくつかの優れた機関を指すページです。優れ
-
Web使用マイニングとは何ですか?
Web使用状況マイニングは、ウェブログデータから有用なデータ、情報、知識を引き出すために使用され、Webページのユーザーアクセスデザインを特定するのに役立ちます。 ウェブリソースの管理であるマイニングでは、個人がウェブサーバーのログとして構成されたウェブサイトの訪問者のリクエストのデータについて考えています。一連のWebページのコンテンツとメカニズムはページの作成者の意図に従いますが、単一のリクエストは、ユーザーがこれらのページをどのように表示するかを示します。 Web使用マイニングは、ページの設計者によって提案されなかった関係を開示する可能性があります。 Webサーバーは通常、Webペー
-
データマイニングの理論的基礎は何ですか?
データマイニングの基礎となるいくつかの理論には、次のものがあります- データ削減 −この理論では、データマイニングの基本は、データ表現を減らすことです。データ削減は、巨大なデータベースでのクエリに対する迅速な近似回答を取得する必要性に応じて、速度と確実性を交換します。 データ削減方法には、特異値分解(主成分分析の背後にある駆動コンポーネント)、ウェーブレット、回帰、対数線形モデル、ヒストグラム、クラスタリング、サンプリング、およびインデックスツリーの開発が含まれます。 データ圧縮 −この理論によれば、データマイニングの基本は、ビット、相関ルール、決定木、クラスターなどの観点からエンコード
-
ビジュアルおよびオーディオデータマイニングとは何ですか?
ビジュアルデータマイニングは、データと知識の視覚化手法を使用して、膨大なデータセットから暗黙的で有益な知識を見つけます。人間の視覚システムは目と脳によって管理されます。後者は、巨大な知識ベースを含む、動的でほぼ並列の処理および推論エンジンと考えることができます。 ビジュアルデータマイニングは、データの視覚化とデータマイニングなどの2つの分野の統合と見なすことができます。また、コンピュータグラフィックス、マルチメディアシステム、人間のコンピュータインタラクション、パターン識別、およびハイパフォーマンスコンピューティングと関連付けることもできます。 一般に、データの視覚化とデータマイニングは次の
-
これらの原則は、個人のクライアントデータを収集する企業から顧客を保護するのにどのように役立ちますか?
1つの解決策は、そのような企業がいくつかのオプトアウトの選択肢で消費者をサポートし、消費者が次のような個人情報の使用に関する制限を説明できるようにすることです。 消費者の個人データは、データマイニングにまったく利用されません。 消費者のデータはデータマイニングに使用できますが、各消費者のIDまたは個人のIDの開示につながる可能性のある一部のデータは削除する必要があります。 データは社内マイニングにのみ使用できます。 データは社内外でも使用できます。 さらに、企業は、消費者がデータマイニングのためにデータの二次利用をオプトインできるようにすることで、積極的な同意を得
-
派生モデルはデータマイニングでどのように提示されますか?
分類は、データクラスまたは概念を定義および分類するモデルを検出する手順です。このモデルは、一連のトレーニングデータ(つまり、クラスラベルが有名なデータオブジェクト)の検索に基づいています。モデルは、クラスラベルが匿名であるオブジェクトのクラスラベルを予測できます。 導出されたモデルは、分類ルール(つまり、IF-THENルール)、決定木、数式、ニューラルネットワークなどのいくつかの形式で表すことができます。デシジョンツリーはフローチャートのようなツリーアーキテクチャであり、各ノードは属性値のテストを示し、各ブランチはテストの結果を定義し、ツリーリーフはクラスまたはクラス分布を記述します。 決
-
Web検索エンジンとは何ですか?
Web検索エンジンは、Web上のデータを検索する専用のコンピューターサーバーです。ユーザークエリの検索結果は、リストとして復元されます(ヒットと呼ばれます)。ヒットには、Webページ、画像、さまざまな種類のファイルが含まれる可能性があります。 さまざまな検索エンジンがあり、パブリックデータベースまたはオープンディレクトリで利用可能なデータを検索して返します。検索エンジンは、Webディレクトリが人間の編集者によってサポートされているという点で、Webディレクトリとは異なりますが、検索エンジンは、アルゴリズムによって、またはアルゴリズムと人間の入力の組み合わせによって機能します。 Web検索エ
-
マイニング方法のさまざまな側面は何ですか?
マイニング方法には次のようなさまざまな側面があります- さまざまな新しい種類の知識のマイニング −データマイニングは、データの特性評価と識別から、関係と相関分析、分類、回帰、クラスタリング、外れ値法、シーケンス法、傾向分析と計算分析まで、幅広いデータ分析と知識発見サービスをカバーしています。 これらのサービスは同じデータベースを複数の方法で使用でき、いくつかのデータマイニング技術の開発が必要です。ソフトウェアの多様性のために、新しいマイニングサービスが出現し続けており、強力で急成長している分野であるデータマイニングを開発しています。 たとえば、データネットワークで効果的な知識を発見するた
-
属性とは何ですか?
属性はデータフィールドであり、データオブジェクトの特性を定義します。名詞の属性、次元、特徴、および変数は、文献で対応して使用されています。ディメンションは通常、データウェアハウジングで使用されます。機械学習の文献は、機能という用語を使用することに影響を与えますが、統計家はメソッドsvariableを好みます。 データマイニングとデータベースの専門家は通常、属性という用語を使用します。ユーザーオブジェクトを定義する属性には、たとえば、顧客ID、名前、住所などがあります。特定の属性の観測値は、観測と呼ばれます。 属性のセットは、特定のオブジェクトを定義できます。これは、属性ベクトル(または特徴
-
データ前処理のタスクは何ですか?
データの前処理には、次のような主要なステップがあります。つまり、データクリーニング、データ統合、データ削減、およびデータ変換です- データクリーニング −データクリーニングルーチンは、欠落している値を入力し、ノイズの多い情報を平滑化し、外れ値を特定または排除し、偏差を解決することにより、情報を「クリーンアップ」するように動作します。ユーザーがデータが汚れていることを理解している場合、使用されたデータマイニングの結果を信頼する可能性は低くなります。 さらに、データがダーティであると、マイニングフェーズが混乱し、出力が不安定になる可能性があります。一部のマイニングルーチンには、不完全またはノイ
-
シーケンシャルパターンマイニングとは何ですか?
シーケンシャルパターンマイニングは、頻繁に出現する一連のイベントまたはサブシーケンスをパターンとしてマイニングすることです。シーケンシャルパターンの例として、キヤノンのデジタルカメラを購入したユーザーが1か月以内にHPカラープリンターを購入する場合があります。 小売情報の場合、シーケンシャルパターンは棚の配置とプロモーションに役立ちます。この業界、および電気通信やさまざまな企業は、ターゲットを絞ったマーケティング、ユーザー維持、およびいくつかのタスクにシーケンシャルパターンを使用することもできます。 Webアクセスパターン分析、天気予報、生産プロセス、Web侵入検知など、シーケンシャルパタ
-
GSPとは何ですか?
GSPはGeneralizedSequentialPatternsの略です。これは、1996年にSrikantとAgrawalによって作成されたシーケンシャルパターンマイニング方法です。これは、Aprioriと呼ばれる通常のアイテムセットマイニングのための彼らの独創的なアルゴリズムの拡張です。 GSPは、シーケンシャルパターンのダウンクロージャーの性質を必要とし、数パスの学生による作成とテストのアプローチを採用しています。 アルゴリズムは次のとおりです。データベースの最初のスキャンで、頻繁に使用されるアイテム、つまりサポートが最小限のアイテムを検出できます。各アイテムは、そのアイテムを含む1