間隔スケール変数とは何ですか?
区間スケール変数は、ほぼ線形スケールの連続データです。体重と身長、緯度と経度の座標(たとえば、家をクラスター化する場合)、天気の温度などの例。使用される測定単位は、クラスタリング分析に影響を与える可能性があります。
たとえば、データ単位を高さをメートルからインチに、重量をキログラムからポンドに変更すると、いくつかのクラスタリング構造が生じる可能性があります。一般に、変数を小さな単位で定義すると、その変数の範囲が広くなるため、結果として得られるクラスタリングアーキテクチャに大きな影響を与えます。
データユニットの選択への依存を防ぐことができ、データを標準化する必要があります。測定値を標準化すると、すべての変数に同じ重みが与えられます。これは、データに関する予備知識がない場合に特に役立ちます。ただし、一部のアプリケーションでは、ユーザーは意図的に特定の変数セットに他の変数よりも多くの重みを与える必要があります。たとえば、バスケットボールプレーヤーの候補をクラスタリングする場合、可変の高さにより多くの重みを与えることを好む場合があります。
データを標準化することができます。1つの選択肢は、元のデータを変更して単位の少ない変数にすることです。変数fの測定値が与えられると、これは次のように実装できます-
平均絶対偏差sfを計算します −
$$ \ mathrm {s_ {f} \:=\:\ frac {1} {n}(| x_ {1f} -m_ {f} | + | x_ {2f} -m_ {f} | + \ cdot \ cdot \ cdot + | x_ {nf} -m_ {f} |)} $$
ここで、x 1f …xnf fのn個の測定値、およびm f はfの平均値、つまり$ \ mathrm {m_ {f} \:=\:\ frac {1} {n}(| x_ {1f} | + | x_ {2f} | + \ cdot \ cdot \ cdot + | x_ {nf} |)} $
標準化された測定値、またはzスコアを計算します-
$$ \ mathrm {z_ {if} \:=\:\ frac {x_ {if} -m_ {f}} {s_ {f}}} $$
平均絶対偏差、s f は、標準偏差$ \ mathrm {\ sigma_{f}}$よりも外れ値に対して強力です。平均絶対偏差を計算する場合、平均$ \ mathrm {(| x_ {1f} -m_ {f} |)}$からの偏差は2乗されません。
したがって、外れ値の影響は減少します。中央絶対偏差を含む、分散の強力な尺度があります。平均絶対偏差を使用する利点は、外れ値のzスコアが小さくなりすぎないことです。したがって、外れ値は検出可能なままです。
標準化は、特定のアプリケーションで役立つ場合と役に立たない場合があります。したがって、標準化を実装するかどうか、および実装する方法の選択は、ユーザーに任せる必要があります。標準化後、または特定のアプリケーションでの標準化なしで、間隔スケール変数によって定義されたオブジェクト間の非類似度(または類似度)は、通常、オブジェクトの各グループ間の距離に基づいて計算されます。
有名な距離測度はユークリッド距離で、これは
として表されます。$$ \ mathrm {d(i、j)=\ sqrt {(X_ {i1} -X_ {j1}})^ 2 + {(X_ {i2} -X_ {j2}})^ 2 + ... + {(X_ {in} -X_ {jn}})^ 2} $$
ここで、i =(x i1 、x i2 、…x in )およびj =(x j1 、x j2 、…x jn )は2つのn次元データオブジェクトです。もう1つのよく知られている指標は、マンハッタン(または街区)の距離で、
と記述されています。$$ \ mathrm {d(i、j)=| X_ {i1} -X_ {j1} | + |(X_ {i2} -X_ {j2} | + ... + |(X_ {in} -X_ { jn} |} $$
ユークリッド距離とマンハッタン距離の両方が、距離関数の次の数値要件を満たします-
-
d(i、j)≥0:距離は非負の数です。
-
d(i、i)=0:オブジェクトからそれ自体までの距離は0です。
-
d(i、j)=d(j、i):距離は対称関数です。
-
d(i、j)≤d(i、h)+ d(h、j):空間内のオブジェクトiからオブジェクトjに直接移動するのは、他のオブジェクトhを迂回するだけです(三角不等式)。
-
C#のクラスのメンバー変数は何ですか?
クラスは、C#のメンバー変数と関数を持つ青写真です。これは、オブジェクトの動作を説明しています。 クラスの構文を見て、メンバー変数とは何かを学びましょう- <access specifier> class class_name { // member variables <access specifier> <data type> variable1; <access specifier> <data type> variable2; &nb
-
Bashの環境変数とは何ですか?
コンピューティングでは、変数 変化する可能性のある値を表す言葉です。変数は変数とは考えていませんが、通常のスピーチでは毎日変数を使用します。 「私の車」と言うときは、「私の車」を、その時点で所有している車を指す一種の変数として使用しています。古い車を新しい車に交換すると、メーカーとモデルは人生の中で必ず変化しますが、変数「my car」を作成することで、現在どのような車が使用されているかを考える必要がなくなります。あなたがあなたの車を参照したいときはいつでも所有すること。 コンピューターでは、変数は同様の方法で使用されます。 たとえば、コンピュータにユーザーアカウントを持っている人は誰でも