-
例外値はどのように計算されますか?
データ異常の認識をサポートするための例外インジケーターとして使用される3つのメジャーがあります。これらの測定値は、セル内の量がその期待値に関して影響を与えるという驚きの程度を示します。 メジャーは計算され、すべてのレベルの集計についてすべてのセルに関連付けられます。 SelfExp、InExp、およびPathExpの測定値は、テーブル分析の数値的アプローチに基づいています。 セル値は、その期待値が統計モデルで決定される場合の期待値との違いに応じて、例外として扱われます。与えられたセル値とその期待値の差は残差として知られています。 直感的には、残差が大きいほど、提供されるセル値は例外になり
-
多次元勾配分析の制約の種類は何ですか?
次元の呪いと理解可能な結果の必要性は、キューブグレードの問題に対する効率的でスケーラブルなソリューションを見つけるための深刻な課題をもたらします。これは限定的ですが、制約付き多次元勾配分析と呼ばれるキューブグレード問題の興味深いバージョンです。検索スペースを減らし、興味深い結果を導き出すことができます。 次のような種類の制約があります- 重要性の制約 −これにより、少なくとも定義された数の基本セルまたは少なくとも特定の総売上高を含む、データ内で特定の「統計的有意性」を持つセルのみをテストできるようになります。データキューブのコンテキストでは、この制約は、解釈セットから多数の些細なセルを
-
データの一般化と概念の説明の方法は何ですか?
データの一般化は、比較的低レベルの値(属性年齢の数値など)を高レベルの概念(若年、中年、上級など)に置き換えることによってデータを要約します。データベースに保存されるデータの量が多いことを考えると、一般化された(低いではなく)抽象化の方法で、簡潔で簡潔な用語で概念を定義できることは有益です。 これにより、データセットを複数の抽象化レベルで一般化できるため、ユーザーはデータの一般的な動作を簡単に調べることができます。たとえば、AllElectronicsデータベースを考えると、営業マネージャーは、単一の顧客トランザクションを調べるのではなく、地理的地域ごとのユーザーグループごとの要約、グループ
-
AOIとは何ですか?
AOIは、属性指向の誘導の略です。概念記述への属性指向の帰納的アプローチは、データキューブアプローチの導入の数年前の1989年に最初に提案されました。データキューブアプローチは、基本的にデータのマテリアライズドビューに基づいており、通常はデータウェアハウスで事前に計算されています。 一般に、OLAPまたはデータマイニングクエリが処理のために送信される前に、オフライン集計を実装します。言い換えれば、属性指向の帰納的アプローチは、一般的に、クエリ指向の一般化ベースのオンラインデータ分析方法です。 属性指向の帰納法の一般的な考え方は、最初にデータベースクエリを使用してタスク関連のデータを収集し、
-
属性の一般化のルールは何ですか?
属性の一般化は、次のルールに依存します。元の作業関係に属性の個別の値の膨大なコレクションがあり、属性に一般化演算子のグループが存在する場合、一般化演算子を選択して属性に使用する必要があります。 。 このルールは、次の理由に依存します。一般化サービスを使用して、作業関係のタプルまたはルール内の属性値を一般化すると、ルールがより多くの初期データタプルをカバーするようになり、定義する概念が一般化されます。これは、インスタンスからの知識で一般化ツリーを登ること、または概念ツリーのアセンションとして定義される一般化ルールに対応します。 これは、含まれている属性またはアプリケーションに基づいており、ユ
-
クラス比較はどのように実行されますか?
対照的なクラスからターゲットクラスを分類する階級差別または比較鉱山の特性評価。ターゲットクラスと対照クラスは、同じディメンションと属性を共有していれば、比較可能である必要があります。たとえば、person、address、elementsの3つのクラスは比較できません。しかし、過去3年間の売上高は同等のクラスであり、コンピュータサイエンスの候補者と物理学の候補者も同様です。 開発された技術は、複数の比較可能なクラス間のクラス比較を管理するために継続することができます。たとえば、クラスの特性化のために定義された属性の一般化プロセスを変更して、比較されるすべてのクラス間で一般化が同期的に実装され
-
頻繁なパターンマイニングの基準は何ですか?
頻繁なパターンマイニングには、次のようないくつかの基準があります- マイニングされるパターンの完全性に基づく −最小のサポートしきい値を提供することで、頻繁なアイテムセット、閉じた頻繁なアイテムセット、および最大の頻繁なアイテムセットのコレクション全体をマイニングできます。 また、制約付きの頻繁なアイテムセット(ユーザー定義の制約のコレクションを満たすことができます)、おおよその頻繁なアイテムセット(マイニングされた頻繁なアイテムセットのおおよそのサポート数のみを変更できます)、ほぼ一致する頻繁なアイテムセット(サポート数をカウントできます)を抽出することもできます比較的一致するアイテムセ
-
アプリオリアルゴリズムとは何ですか?
Aprioriは、1994年にR.AgrawalとR.Srikantによって開発された独創的なアルゴリズムであり、ブール相関ルールの頻繁なアイテムセットを作成します。アルゴリズムは、アルゴリズムが頻繁なアイテムセットのプロパティに関する事前の知識を必要とする場合に依存します。 Aprioriは、レベルワイズ検索と呼ばれる反復法を使用します。この方法では、k個のアイテムセットが(k + 1)個のアイテムセットを探索できます。まず、データベースを参照して各アイテムのカウントを収集し、最小限のサポートを満たすアイテムを受け取ることによって、頻繁な1アイテムセットのセットが検出されます。結果のセット
-
Webマイニングのアプリケーションは何ですか?
Webマイニングは、データマイニング技術を使用して、Webベースのレコードとサービス、サーバーログ、およびハイパーリンク。 Webマイニングは、データをグループ化して分析し、重要な洞察を受け取ることで、Web情報のデザインを発見することを目的としています。 Webマイニングは、適応されたデータマイニング手法をWebに適用するものと広く見なすことができますが、データマイニングは、知識発見プロセスに固定されたほとんどの構造化データのパターンを見つけるためのアルゴリズムのアプリケーションとして表されます。 ウェブマイニングには次のようなさまざまなアプリケーションがあります- Webマイニング
-
空間データマイニングのプリミティブは何ですか?
空間データマイニングは、データマイニングを空間モデルに適用することです。空間データマイニングでは、アナリストは地理データまたは空間データを使用して、ビジネスインテリジェンスまたはさまざまな結果を作成します。これには、地理データを関連性のある有益な形式に変換するための特定の方法とリソースが必要でした。 空間データマイニングには、パターンの認識や、研究プロジェクトを推進する質問に関連するオブジェクトの発見など、いくつかの課題があります。アナリストは、GIS / GPSツールまたは同様のシステムを利用して、大規模なデータベース領域またはその他の完全に巨大なデータセットで表示し、関連するデータのみを
-
空間データマイニングのクラスタリング手法は何ですか?
クラスター分析は、数年にわたって広く研究されてきた統計の一分野です。この手法を使用する利点は、概念階層などの背景知識を利用せずに、データから直接興味深い構造またはクラスターを発見できることです。 PAMやCLARAなどの統計で使用されるクラスタリングアルゴリズムは、計算の複雑さの観点から非効率的であると報告されています。効率性の懸念から、クラスター分析のためにCLARANS(ランダム化検索に基づく大規模アプリケーションのクラスタリング)と呼ばれる新しいアルゴリズムが開発されました。 PAM(メドイド周辺のパーティショニング) − n個のオブジェクトがあると想定し、PAMは最初に各クラスタ
-
時間的データマイニングとは何ですか?
時間的データマイニングは、時間的データの大規模なセットから、重要で、暗黙的で、潜在的に不可欠なデータを抽出するプロセスを定義します。時間データは一連の主要なデータタイプであり、通常は数値であり、時間データから有益な知識を収集することを扱います。 時間的データマイニングの目的は、時間的シーケンスと呼ばれるアルファベットからの名目上のシンボルのシーケンスと連続的な実数のシーケンスで構成される、より高いシーケンシャルデータの時間的パターン、予期しない傾向、またはいくつかの隠れた関係を見つけることです。機械学習、統計、データベーステクノロジーからの一連のアプローチを利用することにより、時系列と呼ばれ
-
傾向分析とは何ですか?
傾向分析は、ノイズによってわずかにまたは完全に隠される可能性のある時系列の動作のモデルを抽出するための手法を定義します。傾向分析の方法は、一般に、病気の発生と予期しない増加または減少の検出、病気の傾向の監視、病気の制御プログラムとポリシーの有効性の評価、およびヘルスケアプログラムとポリシーの成功の評価などに使用されてきました。 アイテムシリーズの傾向を検出するために、さまざまな手法を使用できます。平滑化は、時系列で見られる非体系的な動作を削除するために使用されるアプローチです。平滑化は通常、特定の時点の前後の時間枠が与えられた場合に、属性値の移動平均を見つけるという形をとります。 この時
-
元の属性の適切なサブセットをどのように見つけることができますか?
属性サブセットの選択により、無関係または冗長な属性(またはディメンション)が削除され、データセットのサイズが削減されます。属性サブセットの選択の目的は、データクラスの後続の確率分布が、すべての属性を使用して取得された元の分布に可能な限り近くなるように、属性の最小セットを検出することです。 n個の属性の場合、2n個の可能なサブセットがあります。属性の最適なサブセットを徹底的に検索すると、特にnとデータクラスの数が増えるため、非常にコストがかかる可能性があります。したがって、属性サブセットの選択には、通常、検索スペースの削減を検討するヒューリスティックアプローチが使用されます。 これらのアプロ
-
ウェーブレット変換されたデータが元のデータと同じ長さである場合、この手法はデータ削減にどのように役立ちますか?
有用性は、ウェーブレット変換されたデータを制限できるという事実にあります。ウェーブレット係数の主のごく一部のみを保存することにより、情報の圧縮された近似を保持できます。たとえば、ユーザー定義のしきい値よりも高いすべてのウェーブレット係数を維持できます。他のいくつかの係数は0に設定されています。 結果として得られるデータ記述は非常にまばらであるため、データのスパース性を利用できるサービスは、ウェーブレット空間に実装された場合、計算が非常に高速になります。この方法は、データの主な特性を平滑化することなくノイズを除去するためにも機能し、データのクリーニングにも効率的になります。係数のセットが与えら
-
エントロピーベースの離散化とは何ですか?
エントロピーベースの離散化は、監視されたトップダウン分割アプローチです。分割点(属性範囲を分離するためのデータ値)の計算と保存において、クラス分布データを調査します。統計属性Aを離散化できます。この方法では、最小のエントロピーを持つAの値を分割点として選択し、結果の間隔を再帰的に分割して、階層的な離散化で表示します。 特定の離散化により、Aの概念階層が形成されます。Dには、属性のグループとクラスラベル属性によって記述されたデータタプルが含まれます。 class-label属性は、タプルごとのクラスデータをサポートします。セット内の属性Aのエントロピーベースの離散化の基本的なアプローチは次のと
-
データマイニングでメジャーはどのように計算されますか?
メジャーは、分配法則、代数法則、および全体論を含む3つの要素に編成できます。使用する集計関数の種類によって異なります。 配布 −集計関数は、次のように配信された方法で計算できる場合、分配法則です。データがnセットに独立していると考えてください。各パーティションへのサービスを使用できるため、n個の集計値が得られます。 関数を使用してn個の集計値に変更された結果が、関数をデータセット全体(パーティション化なし)に使用して得られた結果と同じである場合、関数は分散して評価できます。 たとえば、データキューブのcount()は、最初にキューブをサブキューブのグループに分割し、すべてのサブキューブの
-
ビジネスアナリストは、データウェアハウスを持つことで何を得ることができますか?
データウェアハウジングは、複数のソースからデータを収集して処理し、ビジネスに重要なビジネス洞察を提供できるアプローチです。データウェアハウスは、サポート管理の意思決定を目的として特別に作成されています。 簡単に言うと、データウェアハウスは、組織の運用データベースから独立して維持されるデータベースを定義します。データウェアハウスシステムは、複数のアプリケーションシステムの統合を可能にします。分析用の統合された履歴データの強固なプラットフォームをサポートすることにより、データ処理を提供します。 データウェアハウスは、OLTPデータベースが蓄積するレコードをオフロードする場所を提供し、OLTPデ
-
データウェアハウスのチューニングとは何ですか?
データウェアハウジングは、複数のソースからデータを収集して処理し、ビジネスに有意義なビジネス洞察を提供できるアプローチです。データウェアハウスは、管理上の意思決定をサポートするように特別に設計されています。 簡単に言うと、データウェアハウスは、組織の運用データベースから独立して維持されるデータベースを定義します。データウェアハウスシステムは、複数のアプリケーションシステムの統合を可能にします。分析用の統合された履歴情報の強固なプラットフォームを提供することにより、データ処理を提供します。 データウェアハウスは、データを多次元空間で一般化および一元化します。データウェアハウスの構築には、デー
-
データウェアハウスでのバックアップとリカバリの戦略は何ですか?
バックアップとリカバリは、損失の方法でレコードをバックアップし、データ損失のためにそのデータリカバリを可能にするシステムをセットアップするプロセスを定義します。データのバックアップには、データの削除や破損の場合に適用できるように、コンピューター情報のコピーとアーカイブが必要でした。 バックアップの目的は、プライマリデータに障害が発生した場合に更新できるデータのコピーを作成することです。一次データ障害は、ハードウェアまたはソフトウェアの障害、データの破損、または悪意のある攻撃(ウイルスまたはマルウェア)を含む人為的なイベント、または情報の偶発的な削除の結果である可能性があります。バックアップコ