リンクマイニングの課題は何ですか?
リンクマイニングには、次のようないくつかの課題があります-
-
論理的依存関係と統計的依存関係 −グラフリンク構造(オブジェクト間の論理関係を表す)と確率的依存関係(一般に、そのようなオブジェクトが論理的に関連しているオブジェクトの属性間の相関などの統計的関係を表す)には、2つのタイプの依存関係があります。
これらの依存関係を一貫して処理することは、マイニングされるデータが複数のテーブルに存在するマルチリレーショナルデータマイニングにとっても課題です。オブジェクト間のいくつかの可能な論理関係を検索し、さらに属性間の確率的依存関係を標準的に検索する必要があります。これには膨大な検索領域が必要であり、合理的な数学的モデルの検索がさらに複雑になります。ここでは、帰納論理プログラミングで開発された方法を適用できます。これは、論理関係の検索に重点を置いています。
-
機能の構築 −リンクベースの分類では、オブジェクトの属性とそれに接続されているオブジェクトの属性を考慮することができます。さらに、リンクは属性を持つこともできます。フィーチャ構築の目的は、これらの属性を定義する単一のフィーチャを構築することです。これには、特徴選択と特徴集約を含めることができます。特徴選択には、最も識別力のある特徴のみが含まれます。
-
インスタンスとクラス −これは、モデルが明示的に個人を参照しているか、個人のクラス(一般的なカテゴリ)を参照しているかをほのめかします。前者のモデルの利点は、特定の個人を高い確率で接続するために使用できることです。後者のモデルの利点は、複数の個人がいる新しい状況に一般化するために使用できることです。
-
ラベル付きデータとラベルなしデータの効果的な使用 −学習における最近の戦略は、ラベル付きデータとラベルなしデータの両方を組み合わせて組み込むことです。ラベルのないデータは、オブジェクト属性の分布の推測をサポートできます。ラベルなし(テスト)データ間のリンクにより、リンクされたオブジェクトの属性を使用できます。ラベル付き(トレーニング)データとラベルなし(テスト)データ間のリンクは、より正確な推論を作成するのに役立つ依存関係を誘発します。
-
リンク予測 −リンク予測の課題は、オブジェクト間の特定のリンクの事前確率が通常は非常に低いことです。ネットワーク内のノードの近接性を分析するためのいくつかの手段に基づいて、予測をリンクするためのさまざまな方法が提案されてきた。確率モデルも提案されています。巨大なデータセットの場合、より高いレベルでリンクをモデル化する方が効率的です。
-
閉世界仮説と開世界仮説 −ほとんどの従来のアプローチは、ドメイン内のすべての潜在的なエンティティを知っていることを前提としています。この「閉世界」の仮定は、実際のアプリケーションでは非現実的です。この分野での作業には、複数のオブジェクトのセットを含むリレーショナル構造の確率分布を定義するための言語の導入が含まれます。
-
時間的データマイニングとは何ですか?
時間的データマイニングは、時間的データの大規模なセットから、重要で、暗黙的で、潜在的に不可欠なデータを抽出するプロセスを定義します。時間データは一連の主要なデータタイプであり、通常は数値であり、時間データから有益な知識を収集することを扱います。 時間的データマイニングの目的は、時間的シーケンスと呼ばれるアルファベットからの名目上のシンボルのシーケンスと連続的な実数のシーケンスで構成される、より高いシーケンシャルデータの時間的パターン、予期しない傾向、またはいくつかの隠れた関係を見つけることです。機械学習、統計、データベーステクノロジーからの一連のアプローチを利用することにより、時系列と呼ばれ
-
データマイニングの理論的基礎は何ですか?
データマイニングの基礎となるいくつかの理論には、次のものがあります- データ削減 −この理論では、データマイニングの基本は、データ表現を減らすことです。データ削減は、巨大なデータベースでのクエリに対する迅速な近似回答を取得する必要性に応じて、速度と確実性を交換します。 データ削減方法には、特異値分解(主成分分析の背後にある駆動コンポーネント)、ウェーブレット、回帰、対数線形モデル、ヒストグラム、クラスタリング、サンプリング、およびインデックスツリーの開発が含まれます。 データ圧縮 −この理論によれば、データマイニングの基本は、ビット、相関ルール、決定木、クラスターなどの観点からエンコード