Python
 Computer >> コンピューター >  >> プログラミング >> Python

Tensorflowテキストを使用してPythonでUTF-8文字列を分割するにはどうすればよいですか?


UTF-8文字列は、Tensorflowテキストを使用して分割できます。これは、「UnicodeScriptTokenizer」を使用して実行できます。 「UnicodeScriptTokenizer」は作成されるトークナイザーであり、その後、「UnicodeScriptTokenizer」に存在する「tokenize」メソッドが文字列で呼び出されます。

続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか?

Keras Sequential APIを使用します。これは、すべてのレイヤーに1つの入力テンソルと1つの出力テンソルがあるプレーンスタックのレイヤーを操作するために使用されるシーケンシャルモデルの構築に役立ちます。

少なくとも1つの層を含むニューラルネットワークは、畳み込み層と呼ばれます。畳み込みニューラルネットワークを使用して、学習モデルを構築できます。

TensorFlow Textには、TensorFlow2.0で使用できるテキスト関連のクラスとオペレーションのコレクションが含まれています。 TensorFlow Textを使用して、シーケンスモデリングを前処理できます。

Google Colaboratoryを使用して、以下のコードを実行しています。 Google ColabまたはColaboratoryは、ブラウザー上でPythonコードを実行するのに役立ち、構成が不要で、GPU(グラフィックプロセッシングユニット)に無料でアクセスできます。 ColaboratoryはJupyterNotebookの上に構築されています。

トークン化は、文字列をトークンに分解する方法です。これらのトークンは、単語、数字、句読点のいずれでもかまいません。

重要なインターフェースには、TokenizerとTokenizerWithOffsetsがあり、それぞれに単一のメソッドtokenizeとtokenize_with_offsetsがあります。複数のトークナイザーがあり、それぞれがTokenizerWithOffsets(Tokenizerクラスを拡張する)を実装しています。これには、元の文字列にバイトオフセットを取得するオプションが含まれます。これは、トークンが作成された元の文字列のバイトを知るのに役立ちます。

すべてのトークナイザーは、元の個々の文字列にマップされたトークンの最も内側の次元を持つRaggedTensorsを返します。結果の形状のランクが1つ上がります。

print("Unicode script tokenizer is being called")
tokenizer = text.UnicodeScriptTokenizer()
tokens = tokenizer.tokenize(['everything not saved will be lost.', u'Sad☹'.encode('UTF-8')])
print("The tokenized data is converted to a list")
print(tokens.to_list())

コードクレジット-https://www.tensorflow.org/tutorials/tensorflow_text/intro

出力

Unicode script tokenizer is being called
The tokenized data is converted to a list
[[b'everything', b'not', b'saved', b'will', b'be', b'lost', b'.'], [b'Sad', b'\xe2\x98\xb9']]

説明

  • トークナイザーは、Unicodeスクリプトの境界に基づいてUTF-8文字列を分割します。

  • スクリプトコードは、International Components for Unicode(ICU)UScriptCode値に対応しています。

  • これはWhitespaceTokenizerに似ていますが、句読点(USCRIPT_COMMON)を言語テキストから分割し、言語テキストを互いに分離する点が異なります。


  1. Pythonを使用してモデル全体を保存するためにKerasをどのように使用できますか?

    Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズム、深層学習アプリケーションなどを実装します。研究や生産目的で使用されます。 Kerasは、Pythonで記述されたディープラーニングAPIです。これは、機械学習の問題を解決するのに役立つ生産的なインターフェースを備えた高レベルのAPIです。 Tensorflowフレームワーク上で実行されます。迅速な実験を支援するために構築されました。非常にスケーラブルで、クロスプラットフォーム機能が付属しています。これは、KerasをTP

  2. Pythonを使用してモデルをプロットするためにKerasをどのように使用できますか?

    Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズム、深層学習アプリケーションなどを実装します。それは研究および生産目的で使用されます。複雑な数学演算をすばやく実行するのに役立つ最適化手法があります。 Tensorは、TensorFlowで使用されるデータ構造です。フロー図のエッジを接続するのに役立ちます。このフロー図は「データフローグラフ」と呼ばれます。テンソルは多次元配列またはリストに他なりません。 Kerasは、プロジェクトONEIROS(オープンエンドの神経電子イン