-
Sparsificationとは何ですか?
m個のデータポイントのm行m列の近接行列は、各ノードが他のノードにリンクされ、ノードのグループ間のエッジの重みがペアごとの近接度に従う密グラフとして定義できます。各オブジェクトには互いに類似する方法がありますが、ほとんどのデータセットでは、オブジェクトは少数のオブジェクトと非常に同じであり、他のほとんどのオブジェクトとはほとんど同じではありません。 この機能は、実際のクラスタリングプロセスを開始する前に、いくつかの低類似性(高非類似性)値を0に設定することにより、近接グラフ(行列)をスパース化するために使用できます。スパース化は、たとえば、定義されたしきい値より下(上)に同じ(非類似度)を持
-
CUREとは何ですか?
CUREは、Representativeを使用したクラスタリングを表します。これは、複数の手法を使用して、非球形のアーキテクチャと不均一なサイズの高いデータセット、外れ値、およびクラスターを管理できるアプローチを作成するクラスタリングアルゴリズムです。 CUREは、クラスターからのいくつかの代表的なポイントを使用してクラスターを定義します。 これらのポイントは、クラスターのジオメトリとアーキテクチャーを取得します。最初の代表点はクラスターの中央から最も遠い点として選択され、残りの点は以前に選択されたすべての点から最も遠くなるように選択されます。この方法では、代表的なポイントが連想的によく分散
-
異常検出の用途は何ですか?
異常検出の目的は、複数のオブジェクトとは異なるオブジェクトを検出することです。多くの場合、異常なオブジェクトは、データの散布図上で複数のデータポイントから遠く離れているため、外れ値と呼ばれます。異常検出は、逸脱検出と呼ばれます。これは、異常オブジェクトの属性値が、期待値または一般的な属性値から本質的に逸脱しているため、または例外マイニングとして、異常がいくつかの意味で例外的であるためです。 異常検出には、次のようなさまざまな用途があります- 不正検出 −クレジットカードを持っている人の購入行動は、最初の所有者のそれとは異なります。クレジットカード会社は、盗難を特徴付けるデザインを購入するた
-
異常の原因は何ですか?
異常検出の目的は、複数のオブジェクトとは異なるオブジェクトを検出することです。多くの場合、異常なオブジェクトは、データの散布図上で複数のデータポイントから遠く離れているため、外れ値と呼ばれます。異常検出は、逸脱検出と呼ばれます。これは、異常オブジェクトの属性値が、期待値または一般的な属性値から本質的に逸脱しているため、または例外マイニングとして、異常がいくつかの意味で例外的であるためです。 地球、人間社会、またはデータグループのドメインでは、ほとんどのイベントとオブジェクトは、表現によって、共通の領域または通常のものです。しかし、それは、異なるまたは異常なオブジェクトの実現可能性についての鋭
-
異常検出の問題は何ですか?
異常検出には次のようなさまざまな問題があります- 異常を定義するために使用される属性の数 −オブジェクトが異常であるかどうかの問題は、個々の属性に依存します。その属性に対するオブジェクトの値が異常であるかどうかの問題です。オブジェクトには複数の属性が含まれる可能性があるため、複数の属性には異常な値が含まれる可能性がありますが、複数の属性には通常の値が含まれる可能性があります。 さらに、オブジェクトの属性値が独立して異常でない場合でも、オブジェクトが異常になる可能性があります。たとえば、身長が2フィート(子供)または体重が300ポンドの人がいるのは一般的ですが、身長が2フィートの人が体重が3
-
統計的アプローチとは何ですか?
統計的アプローチは、データに対してモデルが作成されるなどのモデルベースのアプローチであり、オブジェクトはモデルにどの程度適合しているかに関して計算されます。外れ値を検出するためのほとんどの統計的アプローチは、確率分布モデルを開発し、Iikelyオブジェクトがそのモデルよりどの程度下にあるかを考慮することに依存しています。 外れ値は、データの確率分布モデルに関して確率が低いオブジェクトです。確率分布モデルは、ユーザー定義の分布のパラメーターを計算することにより、データから生成されます。 したがって、データがガウス分布であると見なされる場合、基本分布の平均と標準偏差は、データの平均と標準偏差を
-
CRISP-DMのアプリケーションは何ですか?
データマイニングの業界標準プロセス(CRISP-DM)は、M&V方法論をさらに標準化し、エネルギー節約のより効率的な見積もりを可能にするアプローチとして認識されました。 CRISP-DMには、次のようないくつかのアプリケーションがあります- ビジネスの理解 − M&Vを支援するためのDMの適用の実現可能性を作成するために、ケーススタディとして生物医学製造施設が選択されました。プロセスのモデリングおよび評価フェーズで結果を実行するには、分析中のビジネスの品質を理解することが重要でした。これは、プロセスウォークスルーを実行し、プロセスフロー図を学習し、配管および計装図を実行することによって実装さ
-
ビットコインデータマイニングとは何ですか?
ビットコインマイニングは、トランザクションデータを認証してパブリック元帳に挿入するプロセスを定義します。パブリックレッジは、ブロックのセットが含まれているため、ブロックチェーンと呼ばれます。ビットコインは何らかの価値を受け取る仮想通貨であり、その価値は静的ではなく、時間とともに変化します。ビットコイン取引を管理するビットコイン監督機関はありません。 ビットコインは、作成を宣言した仮名(偽名)の中本聡の下で制作され、オープンソースプログラムとして実行されました。コンピュータマネーの唯一のエンドツーエンドバージョンでは、経済団体の衝突なしに、オンライン費用をある人から別の人に直接送ることができま
-
二等分K-Meansとは何ですか?
二等分K-meansアルゴリズムは、基本的なK-meansアルゴリズムの単純な開発であり、Kクラスターの取得、いくつかのポイントのセットの2つのクラスターへの分割、これらのクラスターの1つを選択して分割するなどの単純な概念に依存します。 、Kクラスターが生成されるまで。 k-meansアルゴリズムは、入力パラメーターkを生成し、n個のオブジェクトのセットをk個のクラスターに分割して、結果として得られるクラスター内の類似性は高くなりますが、クラスター間の類似性は低くなります。クラスターの類似性は、クラスター内のオブジェクトの平均値に関して評価されます。これは、クラスターの重心または重心と見なす
-
凝集型階層的クラスタリングとは何ですか?
凝集型階層的クラスタリングは、クラスターにサブクラスターがあり、連続してサブクラスターがあるなどのボトムアップクラスタリングアプローチです。クラスター内のすべてのオブジェクトを見つけることから始め、いくつかのオブジェクトが単一のクラスター内で、または明確な終了条件が必要になるまで。このタイプには、いくつかの階層的クラスタリング手法が使用されます。それらは、クラスター間の類似性の説明のみが異なります。 たとえば、AGNES(Agglomerative Nesting)と呼ばれるメソッドには、シングルリンク手法が必要であり、次のように動作します。長方形に配置されたオブジェクトのグループがあると考
-
階層的クラスタリングの要素は何ですか?
階層的クラスタリングアプローチは、データオブジェクトをクラスターのツリーにマージすることによって機能します。階層的クラスタリングアルゴリズムは、トップダウンまたはボトムアップです。正確な階層的クラスタリング手法の機能は、マージまたは分割の決定が完了したため、調整を実行できないことから退化します。 階層的クラスタリングには、次のようなさまざまな要素があります- グローバルな目的関数の欠如 凝集型階層的クラスタリング手法では、いくつかの要素を使用して、各ステップで、どのクラスターをマージする(または分割アプローチの場合は分割する)必要があるかをローカルで決定します。 この方法により、複雑
-
K-MeansとDBSCANの違いは何ですか?
K-Means K-meansクラスタリングは、パーティショニングアルゴリズムです。 K-meansは、データセット内の各データを、形成された新しいクラスターの1つだけに再作成します。データまたはデータポイントは、距離または類似性の尺度を使用して隣接するクラスターに割り当てられます。 k-meansでは、オブジェクトは最も近い中心に生成されます。リンクできない制約を定義でき、k-meansの中心割り当てプロセスを最も近い適用可能な中心割り当てに変更します。 オブジェクトが順番に中央に作成されると、各ステップで、これまでのところ割り当てを提供でき、リンクできない制約を混乱させることはあ
-
データ特性とは何ですか?
以下は、クラスター分析に強く影響する可能性のあるデータのいくつかの特性であり、次のとおりです- 高次元 −高次元データセットでは、単位体積あたりの数点である密度の従来のユークリッド概念が重要になります。多次元が増加するにつれて、体積は増加し、複数の点が複数の次元で指数関数的に増加しない限り、密度は0になる傾向があると考えられます。 また、近接の影響により、高次元の領域でより均一になる可能性があります。この事実を考慮する別の方法は、2つのポイント間の近接性に寄与する次元(属性)が多く、これにより近接性がより均一になる傾向があることです。 ほとんどのクラスタリング手法は近接性または密度に依存
-
クラスターの要素は何ですか?
物理オブジェクトまたは抽象オブジェクトのセットを同じオブジェクトのクラスに結合するプロセスは、クラスタリングと呼ばれます。クラスターは、同じクラスター内で互いに同じであり、他のクラスター内のオブジェクトとは異なるデータオブジェクトのセットです。データオブジェクトのクラスターは、複数のアプリケーションで1つのグループとしてまとめて考えることができます。クラスター分析は人間にとって不可欠な活動です。 クラスター分析は、これらのレコードに対して行われたさまざまな測定に応じて、同じレコードのグループまたはクラスターを形成するために使用されます。重要な設計は、分析の目的に役立つ方法でクラスターを定義す
-
クラスタリングアルゴリズムの特徴は何ですか?
クラスタリングアルゴリズムには、次のようなさまざまな特徴があります- 注文の依存関係 −いくつかのアルゴリズムでは、生成されるクラスターの機能と数は、データが処理される順序に基づいて、おそらく劇的に変化する可能性があります。このようなアルゴリズムを防ぐことが望ましいように思われるかもしれませんが、順序依存性が連想的に小さい場合や、アルゴリズムにいくつかの望ましい機能がある場合があります。 非決定論 − K-meansを含むクラスタリングアルゴリズムは順序に依存しませんが、ランダムな選択が必要な初期化ステップに基づいているため、実行ごとにいくつかの結果が得られます。クラスターの機能は実行ごと
-
プロトタイプベースのクラスタリングとは何ですか?
プロトタイプベースのクラスタリングでは、クラスターはオブジェクトのグループであり、あるオブジェクトは、他のクラスターのプロトタイプよりも、クラスターを表すプロトタイプに近いものです。クラスターのプロトタイプとしてクラスター内の要素の重心を必要とする、単純なプロトタイプベースのクラスタリングアルゴリズム。 プロトタイプベースのクラスタリングには、次のようなさまざまなアプローチがあります- オブジェクトは、複数のクラスターに属することができます。さらに、オブジェクトはある程度の重みを持って各クラスターに属します。このような方法は、一部のオブジェクトが同様に複数のクラスタープロトタイプに近い
-
SOMとは何ですか?
SOMは、自己組織化特徴マップを表します。これはクラスタリングであり、データの視覚化アプローチはニューラルネットワークの視点に依存します。 SOMの目的は、重心のセット(SOM用語では参照ベクトル)を検出し、そのオブジェクトの最適な近さをサポートする重心にデータセット内の各オブジェクトを作成することです。ニューラルネットワーク手法では、各重心に関連するニューロンが1つあります。 インクリメンタルK-meansと同様に、データオブジェクトは一度に1つずつフェーズされ、最も近い重心が更新されます。 K-meansとは異なり、SOMは重心に地形シーケンスを課し、近くの重心もアップグレードされます。
-
SOMアルゴリズムとは何ですか?
SOMは自己組織化特徴マップを表します。これはクラスタリングであり、データの視覚化手法はニューラルネットワークの視点に依存します。 SOMのニューラルネットワークの基礎に関係なく、それは単純に提示されます-プロトタイプベースのクラスタリングの変更のコンテキストでは最小限です。 SOMのアルゴリズムは次のとおりです- 図心を初期化します。 繰り返す 次のオブジェクトを選択します。 オブジェクトに最も近い重心を決定します。 この図心と、近くにある、つまり明確な近傍にある図心を更新します。 重心があまり変化しないか、しきい値がスペースを超えるまで。 各オブ
-
アソシエーションパターンの評価は何ですか?
アソシエーション分析アルゴリズムは、膨大な数のパターンを作成する可能性があります。たとえば、データセットには6つの項目しか含まれていませんが、特定のサポートと信頼性のしきい値で最大数千の相関ルールを作成できます。実際の金銭的データベースのサイズと次元は大きくなる可能性があるため、数千または数百万ものパターンになりやすく、その一部は面白くありません。 ある人のゴミは別の人の宝になる可能性があるため、パターンを分析して、最も興味深いものが簡単なサービスではないことを認識します。アソシエーションパターンの品質を計算するために、広く受け入れられている一連の方法を作成することが不可欠です。 基準の最
-
正規のラベルとは何ですか?
グラフ同型の問題を処理するための標準的な方法は、各グラフをそのコードまたは正規ラベルと呼ばれる特定の文字列表現にマップすることです。正規ラベルには、2つのグラフが同型である場合、それらのコードは等しくなければならないという特性があります。 このプロパティを使用すると、グラフの正規ラベルを分析することにより、グラフ同型をテストできます。グラフの正規ラベルを作成するための最初のフェーズは、グラフの隣接行列の記述を見つけることです。与えられたグラフのそのような行列のインスタンスを示しています。 隣接行列の頂点を並べ替える方法はいくつかあるため、グラフには複数の隣接行列の説明を含めることができます。