Python
 Computer >> コンピューター >  >> プログラミング >> Python

Tensorflowのテキストデータに関するセグメンテーションとは何ですか?


セグメンテーションとは、テキストを単語のような単位に分割する行為を指します。これは、単語を区切るためにスペース文字を使用する場合に使用されますが、中国語や日本語などの一部の言語ではスペースを使用しません。ドイツ語などの一部の言語には、意味を分析するために分割する必要のある長い複合語が含まれています。

続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか?

自然言語を処理するモデルは、異なる文字セットを持つ異なる言語を処理します。 Unicodeは、ほとんどすべての言語の文字を表すために使用される標準のエンコーディングシステムと見なされています。すべての文字は、0〜0x10FFFFの一意の整数コードポイントを使用してエンコードされます。 Unicode文字列は、0個以上のコード値のシーケンスです。

Pythonを使用してUnicode文字列を表現する方法を理解し、同等のUnicodeを使用してそれらを操作してみましょう。まず、標準の文字列操作に相当するUnicodeを使用して、スクリプト検出に基づいてUnicode文字列をトークンに分割します。

Google Colaboratoryを使用して、以下のコードを実行しています。 Google ColabまたはColaboratoryは、ブラウザー上でPythonコードを実行するのに役立ち、構成が不要で、GPU(グラフィックプロセッシングユニット)に無料でアクセスできます。 ColaboratoryはJupyterNotebookの上に構築されています。

print("Below is the sentence that is processed")
sentence_texts = [u'Hello, there.', u'世界こんにちは']
print("The code point values for characters in the sentence")
sentence_char_codepoint = tf.strings.unicode_decode(sentence_texts, 'UTF-8')
print(sentence_char_codepoint)
print("The unicode script values for characters in the sentence")
sentence_char_script = tf.strings.unicode_script(sentence_char_codepoint)
print(sentence_char_script)

コードクレジット:https://www.tensorflow.org/tutorials/load_data/unicode

出力

Below is the sentence that is processed
The code point values for characters in the sentence

The unicode script values for characters in the sentence
<tf.RaggedTensor [[25, 25, 25, 25, 25, 0, 0, 25, 25, 25, 25, 25, 0], [17, 17, 20, 20, 20, 20, 20]]>

説明

  • セグメンテーションとは、テキストを単語のような単位に分割するタスクを指します。
  • これは、単語を区切るためにスペース文字を使用する場合に使用されますが、中国語や日本語などの一部の言語ではスペースを使用しません。
  • ドイツ語などの一部の言語には、意味を分析するために分割する必要のある長い複合語が含まれています。
  • ウェブ上のテキストの場合、「NY株価」(ニューヨーク証券取引所)のように、通常、さまざまな言語とスクリプトが混在しています。
  • スクリプトを単語の境界に近似するように変更することで、MLモデルを使用せずに大まかなセグメンテーションを実行できます。
  • これは、「NY株価」などの文字列で機能します。さまざまなスクリプトのスペース文字は、実際のテキストとは異なる特別なスクリプトコードであるUSCRIPT_COMMONとして分類されるため、スペースを使用するほとんどの言語で機能します。
  • 上記のコードでは、すべての文のすべての文字のコードポイントが生成されます。
  • 次に、すべての文のすべての文字のUnicodeスクリプトが生成されます。

  1. ハッカーはハッキングされた Web サイトで何をしますか?

    2017 年はハッカーの年でした。コンテンツ管理システム、電子商取引ポータル、データ侵害から金融機関の Web サイトのハッキングまで、サイバー犯罪は年々増加しています。 2017 年は、Equifax のデータ侵害による大規模な金融データの盗難、2017 年で最も致命的なランサムウェア攻撃であった WannaCry サイバー攻撃、Petya ランサムウェア攻撃、悪名高い yahoo データ侵害など、驚異的なサイバー攻撃が見られました。 ウェブサイトは一般的にどのようにハッキングされますか? Google は最近、ハッキングされた Web サイトの数が 32% 増加したことを明らかにしました

  2. ビッグ データで何が問題になる可能性があるか?

    機械学習とアルゴリズムを中核とするビッグデータは、高い需要と優れた機能により、現在絶頂期にあります。ビッグデータ分析ソリューションを実現するために、いくつかの企業がこの分野の専門知識を求めています。ビッグデータの文化は現在世界を支配しており、企業が予測モデルと統計分析に基づいてビジネス インテリジェンスを達成しようと努力する中で、標準を設定することに成功しています。 データが指数関数的に生成されるにつれて、ビッグデータ、IoT、クラウド コンピューティングなどの最先端技術に対する需要が高まっています。専門家によると、これらのテクノロジーは、今後あらゆるビジネスの必然的な部分になるでしょう。特