-
ソーシャルネットワークとは何ですか?
ソーシャルネットワークは、グラフで記述された異種のマルチリレーショナル情報セットです。グラフは一般に非常に大きく、ノードはオブジェクトに対応し、エッジは接続に対応して、オブジェクト間の関係または接続を記述します。ノードと接続の両方に属性があります。オブジェクトはクラスラベルを持つことができます。リンクは一方向にすることができ、バイナリである必要はありません。 ソーシャルネットワークは、グラフで記述された異種のマルチリレーショナル情報セットです。グラフは一般に非常に大きく、ノードはオブジェクトに対応し、エッジは接続に対応して、オブジェクト間の関係または接続を記述します。ノードと接続の両方に属性が
-
リンクマイニングのタスクは何ですか?
リンクマイニングには、次のようないくつかのタスクがあります- リンクベースのオブジェクト分類 −従来の分類アプローチでは、オブジェクトは、それらを定義する属性に従って分類されます。リンクベースの分類は、オブジェクトのカテゴリがその属性だけでなく、そのリンク、およびリンクされたオブジェクトの属性にも依存することを予測します。 Webページの分類は、リンクベースの分類のよく識別されたインスタンスです。単語の外観(ページに表示される単語)とアンカーテキスト(ハイパーリンクの単語、つまり、リンクをクリックできるときにクリックできる単語)に基づいて、Webページの分類を予測します。どちらも機能し
-
リンクマイニングの課題は何ですか?
リンクマイニングには、次のようないくつかの課題があります- 論理的依存関係と統計的依存関係 −グラフリンク構造(オブジェクト間の論理関係を表す)と確率的依存関係(一般に、そのようなオブジェクトが論理的に関連しているオブジェクトの属性間の相関などの統計的関係を表す)には、2つのタイプの依存関係があります。 これらの依存関係を一貫して処理することは、マイニングされるデータが複数のテーブルに存在するマルチリレーショナルデータマイニングにとっても課題です。オブジェクト間のいくつかの可能な論理関係を検索し、さらに属性間の確率的依存関係を標準的に検索する必要があります。これには膨大な検索領域が必要
-
マルチリレーショナルデータマイニングとは何ですか?
マルチリレーショナルデータマイニング(MRDM)メソッドは、リレーショナルデータベースからいくつかのテーブル(リレーション)を含むデザインを検索します。各テーブルまたはリレーションは、一連の属性によって記述されるエンティティまたはリレーションを表します。関係間のリンクは、それらの間の関係を示しています。 従来のデータマイニング方法(データが単一のテーブルにあると想定)を適用する方法の1つは、結合と集計を使用して複数の関係データを単一のフラットなデータ関係に変換する提案化です。 これにより、(すべての属性を含む)巨大で望ましくない「普遍的な関係」が生成される可能性があります。さらに、データベース
-
マルチリレーショナルクラスタリングとは何ですか?
マルチリレーショナルクラスタリングは、データオブジェクトを類似性に基づいてクラスターのセットに分割し、複数のリレーションの情報を利用するプロセスです。このセクションでは、CrossClus(ユーザーガイダンスを使用したクロスリレーショナルクラスタリング)を紹介します。これは、物理的な結合を回避するためにクラスタリングとタプルIDの伝播でユーザーガイダンスを利用する方法を探るマルチリレーショナルクラスタリングのアルゴリズムです。 マルチリレーショナルクラスタリングには1つの大きな課題があります。それは、さまざまな関係にある属性が多すぎることです。通常、特定のクラスタリングタスクに関連する属性は
-
オブジェクトの継承されたプロパティを一般化できますか?
オブジェクト識別子は次のように一般化できます。まず、オブジェクト識別子は、オブジェクトが属する最下位のサブクラスの識別子に一般化されます。次に、このサブクラスの識別子は、クラス/サブクラス階層を上ることによって、より高いレベルのクラス/サブクラス識別子に一般化できます。同様に、クラスまたはサブクラスは、関連するクラス/サブクラス階層を上ることによって、対応するスーパークラスに一般化できます。 オブジェクト指向データベースはクラス/サブクラス階層に編成されているため、オブジェクトクラスの一部の属性またはメソッドはクラスで明示的に指定されていませんが、オブジェクトの上位レベルのクラスから継承され
-
空間データマイニングとは何ですか?
空間データベースは、地図、前処理されたリモートセンシングまたは医療画像記録、VLSIチップ設計データなど、大量の宇宙関連データを保存します。空間データベースには、リレーショナルデータベースと区別するためのいくつかの機能があります。それらはトポロジーおよび/または距離情報を運び、通常は空間データアクセス方法によってアクセスされる洗練された多次元空間インデックス構造によって編成され、しばしば空間推論、幾何学的計算、および空間知識表現技術を必要とします。 空間データマイニングとは、知識、空間関係、または空間データベースに明示的に保存されていないその他の興味深いパターンの抽出を指します。このようなマイ
-
空間データウェアハウスの構築と利用に関する課題は何ですか?
空間データウェアハウスの構築と利用に関しては、いくつかの難しい問題があります。最初の課題は、異種のソースとシステムからの空間情報を統合することです。空間データは通常、さまざまなデータ形式を使用してさまざまな業界企業や政府機関に保存されます。 データ形式は、構造固有(たとえば、ラスターベースとベクトルベースの空間データ、オブジェクト指向モデルとリレーショナルモデル、さまざまな空間ストレージおよびインデックス構造)だけでなく、ベンダー固有(たとえば、ベンダー固有)(例:ESRI、MapInfo、Intergraph)。異種の空間データの統合と交換に関する膨大な作業が行われ、空間データの統合と空間デ
-
ウェーブレット変換がクラスタリングに役立つのはなぜですか?
WaveClusterは、データ空間に多次元グリッドアーキテクチャを課すことにより、最初にレコードを要約する多重解像度クラスタリングアルゴリズムです。ウェーブレット変換を使用して元の特徴空間を変更し、変換された空間で密なドメインを見つけることができます。 この方法では、各グリッドセルは、セルにマップされるポイントのグループのデータを要約します。この要約データは通常、マルチ解像度ウェーブレット変換とその後のクラスター分析で使用するためにメインメモリに収まります。 ウェーブレット変換は、信号を複数の周波数サブバンドに分解する信号処理アプローチです。ウェーブレットモデルは、1次元ウェーブレット変
-
期待値最大化とは何ですか?
EM(Expectation-Maximization)アルゴリズムは、パラメーター推定値の検出に使用できる有名な反復改良アルゴリズムです。これは、k-meansパラダイムの拡張と見なすことができます。これは、クラスター平均に応じて、最も類似しているクラスターにオブジェクトを作成します。 EMは、メンバーシップの確率を定義する重みに従って、クラスターに各オブジェクトを作成します。言い換えれば、クラスター間に厳密な境界はありません。したがって、新しい平均は加重メジャーに基づいて評価されます。 EMは、組み合わせモデルのパラメーターの元の推定値または「推測」から始まります(まとめてパラメーター
-
概念クラスタリングとは何ですか?
概念クラスタリングは、機械学習におけるクラスタリングの形式であり、ラベル付けされていないオブジェクトのセットが与えられると、オブジェクトの分類設計を行います。一般に同様のオブジェクトのグループを識別する従来のクラスタリングとは異なり、概念クラスタリングは、各グループが概念またはクラスを定義する各グループの特性定義も検出することにより、さらに一歩進んでいます。 したがって、概念的なクラスタリングは2段階のプロセスです。クラスタリングが最初に実装され、次に特性評価が行われます。したがって、クラスタリングの品質は、単一のオブジェクトのサービスだけではありません。概念クラスタリングのほとんどの手法は
-
制約ベースのクラスター分析のタイプは何ですか?
制約ベースのクラスタリングは、ユーザーが指定した設定または制約を満たすクラスターを検索します。これは制約の性質に基づいており、制約ベースのクラスタリングでは、さまざまなアプローチの代わりに採用できます。次のような制約のカテゴリがいくつかあります- 個々のオブジェクトに対する制約 −クラスター化するオブジェクトに制約を定義できます。たとえば、不動産アプリケーションでは、100万ドルを超える価値のある豪華な邸宅だけを空間的にクラスター化することができます。この制約は、クラスター化されるオブジェクトのコレクションを制限します。前処理(SQLクエリを使用した選択の実装など)によって簡単に管理でき
-
半教師ありクラスター分析とは何ですか?
半教師ありクラスタリングは、ドメイン知識の使用を作成することにより、ラベルのないデータを分割する方法です。これは通常、インスタンス間のペアワイズ制約として、またはラベル付きインスタンスの追加セットとして表現されます。 教師なしクラスタリングの品質は、たとえば、ペアワイズ制約(つまり、類似または異なるクラスターに属するとラベル付けされたオブジェクトのペア)の形式で、監視の弱い構造を使用して本質的に改善できます。ユーザーのフィードバックやガイダンスの制約に依存するこのようなクラスタリング手順は、半教師ありクラスタリングと呼ばれます。 半教師ありクラスタリングには、次の2つのクラスに分類できるい
-
距離ベースの外れ値とは何ですか?
データセットS内のオブジェクトoは、パラメーターpおよびdを持つ距離ベース(DB)の外れ値です。つまり、S内のオブジェクトの最小部分pがdよりも高い距離にある場合はDB(p、d)です。 o。言い換えると、統計的検定に依存する代わりに、距離ベースの外れ値を、十分な近傍がないオブジェクトと見なすことができます。 ネイバーは、指定されたオブジェクトからの距離に基づいて表されます。統計ベースの方法と比較して、距離ベースの外れ値検出は、標準分布の不一致テストの背後にある考え方を一般化またはマージします。したがって、距離ベースの外れ値は、統一外れ値またはUO外れ値とも呼ばれます。 距離ベースの外れ値検出
-
バーチとは何ですか?
BIRCHは、階層を使用したバランスの取れた反復削減とクラスタリングを表します。階層的クラスタリングと反復パーティショニングを含む他のクラスタリング手法を統合することにより、大量の数値レコードをクラスタリングするように設計されています。 BIRCHは、クラスタリング機能とクラスタリング機能ツリー(CFツリー)の2つの概念を提供します。これらは、クラスターの説明を要約するために使用されます。これらの構造により、クラスタリング手法が容易になり、巨大なデータベースで最高の速度とスケーラビリティを実現し、着信オブジェクトの増分および動的クラスタリングにも効果的になります。 n個のd次元データオブジ
-
Hoeffdingツリーアルゴリズムとは何ですか?
Hoeffdingツリーアルゴリズムは、ストリームデータ分類のための決定木学習方法です。これは当初、Webクリックストリームを追跡し、ユーザーがアクセスする可能性のあるWebホストとWebサイトを予測するためのモデルを構築するために使用されていました。通常、劣線形時間で実行され、従来のバッチ学習者とほぼ同じ決定木を生成します。 これはHoeffdingツリーを使用します。これは、最適な分割属性を選択するには、小さなサンプルで十分であることが多いという考えを利用しています。このアイデアは、Hoeffdingバウンド(または加法Chernoffバウンド)によって数学的にサポートされています。 範
-
CluStreamとは何ですか?
CluStreamは、ユーザー指定のオンラインクラスタリングクエリに基づいて進化するデータストリームをクラスタリングするためのアルゴリズムです。クラスタリングプロセスをオンラインコンポーネントとオフラインコンポーネントに分割します。 オンラインコンポーネントは、マイクロクラスターを使用してデータストリームに関する要約統計量を計算して保存し、マイクロクラスターの増分オンライン計算と保守を実行します。オフラインコンポーネントは、マクロクラスタリングを実行し、傾斜した時間枠モデルに基づく保存された要約統計量を使用して、さまざまなユーザーの質問に答えます。 過去と現在の両方のストリームデータ情報に基
-
時系列データベースとは何ですか?
時系列データベースには、時間の繰り返し評価でアクセスされる一連の値またはイベントが含まれます。値は通常、等しい時間間隔(たとえば、毎時、毎日、毎週)で計算されます。時系列データベースは、株式市場分析、経済および売上予測、予算分析、ユーティリティ調査、在庫調査、歩留まり予測、作業負荷予測、プロセスおよび品質管理、自然現象(大気、温度を含む)の観察など、多くのアプリケーションで人気があります。 、風、地震)、数値および工学実験、および医療。 時系列データベースはシーケンスデータベースでもあります。シーケンスデータベースは、時間の具体的なアプローチの有無にかかわらず、順序付けられたイベントのシーケン
-
不一致テストはどのように機能しますか?
統計的不一致テスト分析2つの仮説。作業仮説と別の仮説。作業仮説Hは、n個のオブジェクトのデータセット全体が初期分布モデルF、つまりH:o iからのものであるというステートメントです。 ÎF、ここでi =1、2、n。 その拒絶を裏付ける統計的に重要な証拠がない場合、仮説は保持されます。不一致テストは、オブジェクトが iであるかどうかをチェックします 分布Fに関して本質的に大きい(または小さい)。データの利用可能な知識に基づいて、不一致検定として使用するためにさまざまな検定統計量が提案されている。 不一致テストのためにいくつかの統計Tが選択され、オブジェクトo iの統計の値が選択されたとし
-
階層的メソッドとは何ですか?
階層的クラスタリング手法は、データオブジェクトをクラスターのツリーに結合することで機能します。階層的クラスタリングアルゴリズムは、トップダウンまたはボトムアップのいずれかです。本物の階層的クラスタリング手法の品質は、マージまたは分割の決定が完了すると調整を実装できないために低下します。 クラスターのマージは、クラスター間の距離に基づいています。クラスター間の距離に広く使用されている測定値は次のとおりです。ここで、miはクラスターCiの平均、niはCiのポイント数、| p – p’|です。は2点pとpの間の距離です。 階層的クラスタリング手法の種類 階層的クラスタリング手法には、次の2種類があ