ビッグ データ V – ビッグ データの特性または課題を表す
誰もが 3 つ、4 つ、または 10 の V のセットでビッグデータを定義します。これらの V は実際にビッグデータの概念の定義を私たちに与えているのでしょうか、それとも別のことを伝えようとしているのでしょうか?この V ベースの特徴付けを使用する主な理由は、このビッグ データに伴う課題を強調することです。キャプチャ、クリーニング、キュレーション、統合、保存、処理などの課題。
これらの V は、想定される課題に備えるための指示を与えています。ビッグデータの管理を開始するときに直面する可能性のある課題:
- 大量の増加
- 急速に成長
- 大きな品種を生み出す
- 大きな変動を伴う変化
- 高い信憑性を維持するためのプロセスが必要
- 変換すると大きな視覚化が得られます
- 大きな隠れた価値観を持っている
これらの V は、組織が無視できないビッグデータとビッグデータ戦略の重要な側面を説明しています。ビッグデータのさまざまな属性に寄与するすべての V を見てみましょう:
1.ボリューム:
毎日 100 テラバイトのデータが Facebook にアップロードされます。 Akamai は 1 日 7,500 万件のイベントを分析して、オンライン広告をターゲットにしています。ウォルマートは、1 時間ごとに 100 万件の顧客取引を処理しています。これまでに作成された全データの 90% は、過去 2 年間に生成されたものです。
上の図は、大量のデータと言うときの意味を正確に表しています。データをビッグデータにするのは、データのこの最初の特性です。この膨大な量のデータは、このデータを保存するという課題をもたらします。
2.速度:
1999 年 1 月、毎日毎分、YouTube に 100 時間分の動画をアップロードし、2 億通以上のメールを送信し、30 万件のツイートを送信しています。
ボリューム数の根底にあるのはさらに大きな傾向で、既存データの 90% が過去 2 年間で作成されたものです。これは、データが作成、保存、分析、視覚化される速度を表します。
組織が直面している課題は、データが作成され、リアルタイムで使用される膨大な速度に対処することです。
3.バラエティ
これまで、作成されたすべてのデータは構造化されたデータであり、列と行にきちんと収まっていましたが、その時代は終わりました。現在生成されているデータの 90% は構造化されておらず、地理空間データから、コンテンツや感情を分析できるツイート、写真やビデオなどの視覚的データまで、あらゆる形や形をとっています。
多様性は、ビッグデータの最大の課題の 1 つを説明しています。構造化されていない可能性があり、XML からビデオ、SMS まで、さまざまな種類のデータを含めることができます。特にデータ自体が急速に変化する場合、意味のある方法でデータを整理することは簡単な作業ではありません。
4.変動性
可変性は、多様性と混同されることがよくあります。それを区別する簡単な例は次のとおりです。スターバックスを考えてみてください。コールドコーヒーには非常に多くのフレーバーがあります。これがバラエティです。たとえば、毎日カフェ モカを購入すると、前日とは少し違う味と香りがしたとします。変動性です。
ビッグデータのコンテキストにおける可変性は、いくつかの異なるものを指します。 1 つは、データ内の不整合の数です。これらは、意味のある分析を行うために、異常および外れ値検出方法によって検出される必要があります。ビッグ データは、複数の異なるデータ タイプとソースから生じる多数のデータ ディメンションのために可変性もあります。変動性は、ビッグ データがデータベースにロードされる速度の一貫性の欠如を指す場合もあります。
5.真実
ビッグデータを理解する上で重要なのは、その厄介でノイズの多い性質と、分析を開始する前に正確なデータセットを作成するための作業量です。分析中のデータが不正確または不完全であれば意味がありません。
この状況は、データ ストリームが、信号対雑音比が異なるさまざまな形式を表すさまざまなソースから発信されたときに発生します。ビッグデータ分析に到達するまでに、この蓄積されたエラーが蔓延している可能性があります。
正確さとは、データが正確であることを確認することです。そのためには、悪いデータがシステムに蓄積されないようにするプロセスが必要です。最も単純な例は、偽名と不正確な連絡先情報を使用してマーケティング オートメーション システムに入る連絡先です。データベースでミッキーマウスを何回見たことがありますか?これは、古典的な「ガベージ イン、ガベージ アウト」の課題です。
6.可視化
これはビッグ データの難しい部分であり、失敗すると、この膨大な量のデータが役に立たなくなります。あらゆるビッグ データ処理システムの中心的なタスクは、その巨大なスケールを簡単に理解できて実行可能なものに変換することです。人間が消費するための最良の方法の 1 つは、グラフィック形式に変換することです。
現在のビッグ データ ビジュアライゼーション ツールは、インメモリ テクノロジの制限と、スケーラビリティ、機能、および応答時間の不足により、技術的な課題に直面しています。従来のグラフでは、10 億のデータ ポイントをプロットするというニーズを満たすことができないため、データ クラスタリングや、ツリー マップ、サンバースト、平行座標、円形ネットワーク ダイアグラム、コーン ツリーなどを使用するなど、さまざまな方法でデータを表す必要があります。
7.値
価値は最終的なゲームです。ビッグデータの潜在的な価値は巨大です。量、速度、多様性、変動性、正確性、および視覚化 (これには多くの時間と労力がかかります) に対処した後、組織がデータから価値を得ていることを確認することが重要です。
もちろん、データ自体はまったく価値がありません。その価値は、そのデータに対して行われる分析と、データがどのように情報に変換され、最終的に知識に変換されるかにあります。
上記の 7 つの V は、ビッグデータの 3 つの重要な側面、つまり定義、特性、課題について説明しています。しかし、前述の 7 つの V の課題に直面する方法を発明するためのビッグデータの研究を始めると、他の V に出くわしました。それらはビッグデータで重要な役割を果たしているわけではありませんが、特徴と課題のリストを完成させています.
8.有効性
信憑性と同様に、有効性とは、意図された用途に対してデータがどれほど正確で正しいかを指します。ビッグデータの正確性は有効性の問題です。つまり、データが意図された用途に対して正確で正確であることを意味します。明らかに有効なデータは、正しい決定を下すための鍵です。データ検証は、データが破損していないことを証明するものです。
9.生存率
以下の文について考えてみてください:
- 時間帯や曜日は購買行動にどのような影響を与えますか?
- Twitter や Facebook での言及の急増は、購入の増加または減少を予見しますか?
- 消費者の購入傾向を予測するために、地理的位置、製品の入手可能性、時間帯、購入履歴、年齢、家族の規模、与信限度額、車両の種類をすべてどのように収束させるのですか?
最初のタスクは、そのデータの実行可能性を評価することです。これは、効果的な予測モデルを構築する際に考慮すべきデータと変数が非常に多いため、迅速かつコストをかけて-完全な機能を備えたモデルの作成に投資する前に、特定の変数の関連性を効果的にテストおよび確認します。言い換えれば、さらなる行動を起こす前にその仮説を検証したいと考えており、変数の実行可能性を判断する過程で、他の変数 (最初の仮説の一部ではなかった変数) が影響を受けているかどうかを判断するためにビューを拡張できます。望ましい、または観察された結果に意味のある影響を与えます。
10.ボラティリティ
データが不要、歴史的、またはもはや役に立たないと見なされる前に、データが何歳になる必要がありますか?データはどのくらいの期間保持する必要がありますか?
ビッグデータの揮発性について話すとき、私たちはビジネスで毎日実施している構造化データの保持ポリシーを簡単に思い出すことができます。保持期間が終了したら、簡単に破棄できます。
ただし、ビッグ データの速度と量のために、その揮発性を慎重に検討する必要があります。データの最新性と可用性に関するルールを確立し、必要に応じて情報を迅速に取得できるようにする必要があります。
11.脆弱性
2015 年の Ashley Madison Hack を覚えていますか?または、2016 年 5 月に CRN が報告したことを覚えていますか?「Peace と呼ばれるハッカーが販売目的でダークウェブにデータを投稿しました。これには、1 億 6,700 万の LinkedIn アカウントに関する情報と、MySPace ユーザーの 3 億 6,000 万の電子メールとパスワードが含まれていたとされています。
ビッグデータは、新たなセキュリティ上の懸念をもたらします。特にこれらの特性により、ビッグデータのセキュリティ プログラムを開発することは困難になります。結局のところ、データ侵害は大きな侵害です。
では、これらすべてがビッグデータの性質について何を教えてくれるのでしょうか?まあ、それは大規模で急速に拡大していますが、ノイズが多く、乱雑で、絶えず変化しており、何百もの形式があり、分析と視覚化なしでは事実上価値がありません.
量、速度、および多様性は、ビッグ データの重要なパラメータであるだけでなく、ビッグ データの概念と、通常のデータとビッグデータ。これらはビッグ データ自体に固有のものですが、他の V の変動性、正確性、視覚化、および価値は、ビッグ データを処理、分析し、恩恵を受ける人々に与える巨大な複雑さを反映する重要な属性です。
間違いなく、ビッグ データは企業の IT が適切なコンピューティング インフラストラクチャで対応しなければならない重要な傾向です。しかし、そのすべてを理解する高性能な分析とデータ サイエンティストがいなければ、ビジネス上の優位性につながる価値を生み出さずに、単純に大きなコストを生み出すリスクがあります。
-
克服すべきビッグデータの課題
ビッグデータとは 機械の能力は限られています。パフォーマンスの制限の 1 つは、処理できるデータのサイズです。今日のマシンは大規模なデータを処理できますが、データ サイズの指数関数的な増加は依然として大きな問題です。 今日の日付のデータは巨大で、指数関数的に増加しています。このサイズの増加により、データを保存および処理する従来の方法はうまく機能しません。 この問題を克服するには、この膨大な量のデータを処理できるシステムまたはプロセスが必要です。ビッグ データは、高度なリアルタイム処理ユニットと、巨大なデータを簡単に処理できるすぐに利用できるハードウェアを使用するプロセスです。 デー
-
2022 年ベスト 10 のビッグデータ分析ツール
ビッグ データ分析ツールは、データ セットへの洞察を提供します。データは、さまざまなビッグ データ クラスターから収集されます。このツールは、企業がデータの傾向を理解し、パターンとその複雑さを作成し、データをわかりやすいデータ視覚化に変換するのに役立ちます。 ビッグデータは雑然としているため、ビジネスのパフォーマンスを理解し、顧客の洞察を得るには、分析ツールが非常に重要です。オンラインで利用できるデータ分析ツールは多数あるため、この記事は洞察を得て、最適なビッグデータ分析ツールを選択するのに役立ちます。 2022 年ビッグデータ分析ツール トップ 10 大小を問わず、あらゆるビジネスに最適