-
ROC曲線とは何ですか?
ROCはReceiverOperatingCharacteristicの略です。 ROC曲線は、2つの分類モデルを分析するための便利な視覚的ツールです。 ROC曲線は、第二次世界大戦中にレーダー画像を検索するために作成された信号検出理論から得られたものです。 ROC曲線は、特定のモデルの真陽性率または感度(認識された正のタプルの割合)と偽陽性率(誤って陽性として認識された負のタプルの割合)の間のトレードオフを示します。 2つのクラスの問題がある場合、モデルが「はい」のケースを正確に識別できる速度と、複数の「部分」で「いいえ」のケースを「はい」と誤って認識する速度との間のトレードオフを予測で
-
間隔スケール変数とは何ですか?
区間スケール変数は、ほぼ線形スケールの連続データです。体重と身長、緯度と経度の座標(たとえば、家をクラスター化する場合)、天気の温度などの例。使用される測定単位は、クラスタリング分析に影響を与える可能性があります。 たとえば、データ単位を高さをメートルからインチに、重量をキログラムからポンドに変更すると、いくつかのクラスタリング構造が生じる可能性があります。一般に、変数を小さな単位で定義すると、その変数の範囲が広くなるため、結果として得られるクラスタリングアーキテクチャに大きな影響を与えます。 データユニットの選択への依存を防ぐことができ、データを標準化する必要があります。測定値を標準化す
-
バイナリ変数とは何ですか?
バイナリ変数には、0または1などの2つの状態しかありません。ここで、0は変数が存在しないことを定義し、1は変数が存在することを定義します。たとえば、患者を定義する可変喫煙者が与えられた場合、1は患者が喫煙することを示し、0は患者が喫煙しないことを示します。バイナリ変数を、間隔がスケーリングされているかのように、誤解を招くクラスタリング結果につながる可能性があると見なすことができます。したがって、非類似度を計算するには、バイナリデータに定義するメソッドが不可欠です。 与えられたバイナリデータから非類似度行列を計算する方法が1つあります。一部のバイナリ変数が同様の重みを持つと考えられる場合、2行
-
k-meansアルゴリズムはどのように機能しますか?
k-meansアルゴリズムは、入力パラメーターkを作成し、n個のオブジェクトのグループをk個のクラスターに分割して、結果として得られるクラスター内の類似性は大きくなりますが、クラスター間の類似性は低くなります。クラスターの類似性は、クラスター内のオブジェクトの平均値に関して計算されます。これは、クラスターの重心または重心と見なすことができます。 k-meansアルゴリズムは、次のように進行します。まず、オブジェクトのkをランダムに選択できます。各オブジェクトは、元々クラスターの平均または中心を定義します。残りのオブジェクトごとに、オブジェクト間の距離とクラスターの平均に応じて、同じクラスター
-
ROCKとは?
ROCKは、リンクを使用したRobustClusteringの略です。これは、カテゴリ属性を持つデータのリンク(2つのオブジェクト間の共通のネイバーの数)の概念を分析する階層的クラスタリングアルゴリズムです。カテゴリ情報をクラスタリングする場合、そのような距離データは高品質のクラスターにつながることができないことを示しています。 さらに、ほとんどのクラスタリングアルゴリズムは、クラスタリング時にポイント間の類似性のみを作成します。つまり、各ステップで、ポイントが1つのクラスターに結合されます。この「ローカライズされた」方法では、バグが発生しやすくなります。たとえば、2つの異なるクラスターは、
-
DBSCANとは何ですか?
DBSCANは、ノイズのあるアプリケーションの密度ベースの空間クラスタリングの略です。これは、密度ベースのクラスタリングアルゴリズムです。アルゴリズムは、十分に高密度の領域をクラスターに増やし、ノイズのある空間データベースで任意のアーキテクチャのクラスターを見つけます。これは、クラスターを密度接続ポイントの最大グループとして表します。 密度ベースのクラスタリングの概念には、次のようないくつかの新しい定義が含まれています- 特定のオブジェクトの半径ε内の近傍は、オブジェクトのε近傍として知られています。 オブジェクトのε近傍に少なくとも最小数のMinPtsが含まれている場合、そのオ
-
DENCLUEとは何ですか?
クラスタリングは、知識発見のための重要なデータマイニングアプローチです。クラスタリングは、複数のデータオブジェクトをクラスターなどの同じグループに分類する探索的データ分析方法です。 DENCLUEは、密度ベースのクラスタリングを表します。これは、密度分布関数のグループに依存するクラスタリングアプローチです。 DENCLUEアルゴリズムは、クラスターモデルを使用し、カーネル密度推定に依存します。クラスターは、予測密度関数の極大値で表されます。 DENCLUEは、一様分布のレコードでは機能しません。高次元空間では、次元の呪いのため、データは常に均一に分布しているように見えます。したがって、DE
-
STINGとは何ですか?
STINGはStatisticalInformationGridの略です。 STINGは、空間領域が長方形のセルに分割されるグリッドベースの多重解像度クラスタリング手法です。このような長方形のセルには、複数の解決方法に相当するいくつかの方法があり、これらのセルは階層構造を形成します。高レベルの各セルは分離され、次に低いレベルの複数のセルを形成します。 各グリッドセルの属性に関する統計データ(平均値、最大値、最小値を含む)が事前に計算され、保存されます。高レベルのセルの統計パラメータは、低レベルのセルのパラメータから簡単に計算できます。 これらのパラメーターには、次のものが含まれます。属性に
-
閉じた頻繁なアイテムセットをどのようにマイニングできますか?
ナイーブなアプローチでは、頻繁なアイテムセットの完全なセットをマイニングしてから、現在の頻繁なアイテムセットの適切なサブセットである各頻繁なアイテムセットを削除し、同様のサポートを提供できます。 この方法では、2 100を導き出すことができます。 -長さを取得するための1つの頻繁なアイテムセット-100の頻繁なアイテムセット。すべて、冗長なアイテムセットの削除を開始する前に。推奨される手法は、マイニングフェーズ中にクローズされた頻繁なアイテムセットを正確に検索することです。これには、マイニング中に閉じたアイテムセットの方法を特定できるようになり次第、検索領域を整理する必要がありました。次の
-
アソシエーションルールクラスタリングシステムに含まれる手順は何ですか?
相関ルールクラスタリングシステムには、次の手順が含まれます- ビニング −定量的属性は、そのドメインを表す幅広い値を持つことができます。年齢と収入を軸としてプロットできれば、2次元グリッドの大きさを考えることができます。ここで、年齢のすべての可能な値が1つの軸上の特定の位置に作成され、同じように、収入のすべての可能な値が特定の位置に作成されました。もう一方の軸上の位置。 グリッドを管理可能なサイズまで維持でき、代わりに定量的属性の領域を間隔に分割できます。これらの間隔は、マイニングフェーズで組み合わせることができるという点で強力です。パーティショニングフェーズはビニングとして定義されます。
-
制約ベースのアソシエーションマイニングとは何ですか?
データマイニング手順では、特定の情報セットから何千ものルールを明らかにすることができます。そのほとんどは、ユーザーにとって独立しているか、面倒です。ユーザーは、マイニングのどの「方向」が興味深いパターンにつながる可能性があるか、および発見したいパターンまたはルールの「形式」を最もよく理解しています。 したがって、優れたヒューリスティックは、ユーザーにそのような直感や期待を検索スペースを制約する制約として定義させることです。この戦略は、制約ベースのマイニングと呼ばれます。 制約ベースのアルゴリズムでは、頻繁なアイテムセット生成ステップで検索領域を減らすために制約が必要です(アソシエーションル
-
メタルールはデータマイニングでどのように役立ちますか?
データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。 これは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。 データマイニングはデータサイエンスに似ています。それは、特定の状況で、特定のデータセットに対して、目的を持っ
-
ルール制約を使用して検索スペースを削除するにはどうすればよいですか?
ルール制約は、次の5つの要素に分類できます- アンチモノトニック −制約の最初の要素は反単調です。ルール制約「sum(I.price)≤100」について考えてみます。 Aprioriフレームワークを使用していると考えてください。このフレームワークは、反復ごとにkがサイズkのアイテムセットを分析します。アイテムセット内のアイテムのコスト合計が100以上の場合、セットにアイテムを追加するとコストが高くなり、制約を満たさないため、このアイテムセットを検索スペースから短くすることができます。 単調な制約による剪定は、Aprioriスタイルのアルゴリズムのすべての反復で使用でき、データマイニングサー
-
分類はどのように機能しますか?
分類は、データセットに要素を割り当てて、より効率的な予測と分析を支援するデータマイニングアプローチです。分類は通常、バイナリ分類と呼ばれる2つのターゲットクラスがある場合に使用されます。 特にパターン認識の問題で2つ以上のクラスが予測できる場合、これは多項分類として定義されます。ただし、多項分類はカテゴリ応答データに使用できます。この場合、さまざまな要素の中でどのカテゴリに最も確率の高いインスタンスがあるかを予測する必要があります。 データ分類は2段階のフェーズです。最初のフェーズでは、データクラスまたは概念の事前定義されたコレクションを定義する分類子が構築されます。これは学習フェーズ(ま
-
決定木は分類にどのように使用されますか?
デシジョンツリーの誘導は、クラスラベルの付いたトレーニングタプルからデシジョンツリーを学習することです。デシジョンツリーは、シーケンス図のようなツリー構造であり、すべての内部ノード(非リーフノード)が属性のテストを示し、各ブランチがテストの結果を定義し、各リーフノード(またはターミナルノード)がクラスに影響を与えます。ラベル。ツリーの最上位ノードはルートノードです。 これは、コンピューターを購入するという概念を定義します。つまり、AllElectronicsのユーザーがコンピューターを購入する可能性が高いかどうかを予測します。内部ノードは長方形で示され、葉ノードは楕円で示されます。さまざまな
-
属性選択尺度とは何ですか?
属性選択尺度は、クラスラベル付きトレーニングタプルの特定のデータパーティションDを単一のクラスに「最適に」分離する分割テストを選択するためのヒューリスティックです。 分割基準の結果に従ってDをより小さなパーティションに分割できる場合、理想的にはすべてのパーティションが純粋である可能性があります(つまり、特定のパーティションに分類される一部のタプルは同じクラスに属することができます)。 概念的には、「最良の」分割基準は、そのような方法で最もおおよその結果です。属性選択メジャーは、特定のノードのタプルをどのように分割するかを決定するため、分割ルールと呼ばれます。 属性選択メジャーは、特定のト
-
ベイジアンビリーフネットワークはどのように学習しますか?
ベイジアン分類器は統計的分類器です。特定のサンプルが特定のクラスに属する確率など、クラスメンバーシップの確率を予測できます。ベイジアン分類器は、データベースを高度化できる場合にも、高い効率と速度を示します。 クラスが定義されると、システムは分類を管理するルールを推測する必要があります。したがって、システムは各クラスの説明を見つけることができるはずです。説明は、トレーニングセットの予測属性のみを参照する必要があります。これにより、否定的な例ではなく、肯定的な例のみが説明を満たす必要があります。ルールの説明がすべての肯定的な例をカバーし、クラスの否定的な例のいずれもカバーされていない場合、ルール
-
バックプロパゲーションはどのように機能しますか?
バックプロパゲーションは、勾配の計算と確率的勾配降下法におけるその必要性の両方を含む手順全体を定義します。技術的には、バックプロパゲーションは、ネットワークの変更可能な重みに関するネットワークのエラーの勾配を計算するために使用されます。 バックプロパゲーションの特徴は、トレーニング対象の機能を実行できなくなるまで、更新された重みを計算してネットワークを強化する、反復的で再帰的かつ効果的なアプローチです。バックプロパゲーションには、Webデザイン時に認識されるアクティベーションサービスの派生物が必要です。 バックプロパゲーションは一般にニューラルネットワークのトレーニングで使用され、ネットワ
-
データウェアハウスの設計は何ですか?
データウェアハウジングは、複数のソースから情報を収集および管理して、ビジネスに重要なビジネス洞察をサポートできるアプローチです。データウェアハウスは、サポート管理の意思決定を目的として特別に作成されています。 データウェアハウスは、会社の運用データベースとは別に維持されるデータベースを定義します。データウェアハウスシステムは、複数のアプリケーションシステムの統合を可能にします。分析用の統合された履歴レコードの強固なプラットフォームをサポートすることにより、データ処理をサポートします。 データウェアハウスは、リモートベースエリアで定義されたマテリアライズドビューのグループと見なすことができま
-
ディスカバリー主導の探索とは何ですか?
ディスカバリー主導の探索は、そのようなキューブ探索アプローチです。発見主導型の探索では、データの例外を示す事前に計算された測定値を使用して、すべてのレベルの集計で、データ分析プロセスでユーザーをガイドします。これらの対策を例外指標と呼びます。 直感的には、例外は、統計モデルに基づいて予想される値とは大幅に異なるデータキューブセルの値です。モデルは、セルが適用されるすべてのディメンションにわたるメジャー値の変動とパターンを処理しました。 たとえば、アイテムの売上データの分析で、12月の売上が数か月と比較して増加していることが確認された場合、これは時間ディメンションの例外のように見えます。ただ