プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

外れ値とは何ですか?


外れ値は、いくつかのメカニズムによって生成されたかのように、本質的に残りのオブジェクトから分岐するデータオブジェクトです。表示を簡単にするために、外れ値ではないデータオブジェクトを「通常の」情報または期待される情報として定義できます。通常、外れ値を「異常な」データとして定義できます。

外れ値は、特定のクラスまたはクラスターで組み合わせることができないデータコンポーネントです。これらは、さまざまなデータオブジェクトの通常の動作とは異なるいくつかの動作を持つデータオブジェクトです。この種のデータの分析は、知識を掘り起こすために重要になる可能性があります。

外れ値は、ノイズの多い情報とは異なります。ノイズは、計算された変数のランダムなバグまたは分散です。一般に、外れ値の検出などのデータ分析では、ノイズは魅力的ではありません。

たとえば、クレジットカード詐欺の検出では、ユーザーの購入行動を確率変数としてモデル化できます。ユーザーは、「ランダムエラー」や「差異」のように見える「ノイズトランザクション」を行うことができます。これには、ある日、より大きなランチを購入したり、通常より1杯多くのコーヒーを受け取ったりすることが含まれます。

このようなトランザクションは、外れ値と見なされるべきではありません。したがって、クレジットカード会社は、一部の取引を確認することで多額の費用を負担する可能性があります。同社はまた、いくつかの誤警報でユーザーを悩ませることでユーザーを失う可能性があります。いくつかのデータ分析およびデータマイニングサービスとして、外れ値を検出する前にノイズを除去する必要があります。

一部の実際のデータベースには、外れ値、欠落したデータ、匿名のデータ、または誤ったデータが含まれています。一部のクラスタリングアルゴリズムは、そのようなデータに集中しており、質の悪いクラスターを開始する可能性があります。

外れ値は、他のデータと同じ構造で作成されていないことが疑われるため、魅力的です。したがって、外れ値の検出では、識別された外れ値がいくつかのメカニズムによって生成される理由を正当化することが不可欠です。

これは、残りの情報にさまざまな仮定を作成し、検出された外れ値がそれらの仮定に本質的に違反していることを表示することによって実現されます。外れ値の検出は、データセットを含める際の新規性の検出にも関連付けられています。たとえば、新しいコンテンツが近づいているソーシャルメディアのWebサイトを観察することで、新規性の検出により、新しい主題や傾向をタイムリーに特定できます。

新規トピックは、元々外れ値として表示される可能性があります。外れ値の検出と新規性の検出は、モデリングと検出のアプローチにおいていくつかの類似点を共有しています。ただし、2つの重要な違いは、新規性の検出では、新しい対象が確認されると、それらは一般に一般的な行動のモデルに統合されるため、フォローアップインスタンスは外れ値とは見なされなくなります。


  1. データの整合性の種類は何ですか?

    データベースの整合性は、格納された情報の有効性と整合性を定義します。整合性は、一般に、データベースが違反することを許可されていない整合性ルールである制約の観点から定義されます。制約は、各属性に適用することも、テーブル間の関係に適用することもできます。 整合性制約により、許可されたユーザーがデータベースに加えた変更(更新の削除、挿入)によってデータの整合性が失われることはありません。したがって、整合性制約はデータベースへの偶発的な損傷を防ぎます。 データの整合性には、次のようなさまざまなタイプがあります- 論理的整合性 −リレーショナルデータベースでは、論理的な一貫性により、いくつかの

  2. C#のnull許容データ型とは何ですか?

    C#はnull許容型を提供し、null値だけでなく通常の範囲の値も割り当てることができます。 たとえば、-2,147,483,648から2,147,483,647までの任意の値、またはnullをNullable変数に格納できます。同様に、Nullable変数にtrue、false、またはnullを割り当てることができます。 構文は次のとおりです- < data_type> ? <variable_name> = null; これが例です- int? num1 = null; Nullableデータ型を処理するための完全な例を見てみましょう- 例 using Sy