Python
 Computer >> コンピューター >  >> プログラミング >> Python

Pythonでunicode_split()を使用して、Tensorflowテキストを使用して文字列を文字ごとに分割するにはどうすればよいですか?


Tensorflowテキストを使用すると、「unicode_split」メソッドを使用して文字列を文字ごとに分割できます。最初に分割された文字列をエンコードしてから、変数に関数呼び出しを割り当てます。この変数は、関数呼び出しの結果を保持します。

続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか?

Keras Sequential APIを使用します。これは、すべてのレイヤーに1つの入力テンソルと1つの出力テンソルがあるプレーンスタックのレイヤーを操作するために使用されるシーケンシャルモデルの構築に役立ちます。

少なくとも1つの層を含むニューラルネットワークは、畳み込み層と呼ばれます。畳み込みニューラルネットワークを使用して、学習モデルを構築できます。

TensorFlow Textには、TensorFlow2.0で使用できるテキスト関連のクラスとオペレーションのコレクションが含まれています。 TensorFlow Textを使用して、シーケンスモデリングを前処理できます。

Google Colaboratoryを使用して、以下のコードを実行しています。 Google ColabまたはColaboratoryは、ブラウザー上でPythonコードを実行するのに役立ち、構成が不要で、GPU(グラフィックプロセッシングユニット)に無料でアクセスできます。 ColaboratoryはJupyterNotebookの上に構築されています。

トークン化は、文字列をトークンに分解する方法です。これらのトークンは、単語、数字、句読点のいずれでもかまいません。

重要なインターフェースには、TokenizerとTokenizerWithOffsetsがあり、それぞれに単一のメソッドtokenizeとtokenize_with_offsetsがあります。複数のトークナイザーがあり、それぞれがTokenizerWithOffsets(Tokenizerクラスを拡張する)を実装しています。これには、元の文字列にバイトオフセットを取得するオプションが含まれます。これは、トークンが作成された元の文字列のバイトを知るのに役立ちます。

print("The encoded characters are split")
tokens = tf.strings.unicode_split([u"仅今年前".encode('UTF-8')], 'UTF-8')
print("The tokenized data is converted to a list")
print(tokens.to_list())

コードクレジット-https://www.tensorflow.org/tutorials/tensorflow_text/intro

出力

The encoded characters are split
The tokenized data is converted to a list
[[b'\xe4\xbb\x85', b'\xe4\xbb\x8a', b'\xe5\xb9\xb4', b'\xe5\x89\x8d']]

説明

  • すべてのトークナイザーは、元の個々の文字列にマップされたトークンの最も内側の次元を持つRaggedTensorsを返します。

  • 結果の形状のランクが1つ上がります。

  • 空白を使用せずに言語をトークン化して単語をセグメント化する場合、文字で分割するのが一般的です。

  • これは、Tensorflowコアにあるunicode_splitopを使用して実行できます。

  • unicode_splitが呼び出されると、トークン化されたデータがリストに追加されます。


  1. Pythonを使用してモデル全体を保存するためにKerasをどのように使用できますか?

    Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズム、深層学習アプリケーションなどを実装します。研究や生産目的で使用されます。 Kerasは、Pythonで記述されたディープラーニングAPIです。これは、機械学習の問題を解決するのに役立つ生産的なインターフェースを備えた高レベルのAPIです。 Tensorflowフレームワーク上で実行されます。迅速な実験を支援するために構築されました。非常にスケーラブルで、クロスプラットフォーム機能が付属しています。これは、KerasをTP

  2. Pythonを使用してモデルをプロットするためにKerasをどのように使用できますか?

    Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズム、深層学習アプリケーションなどを実装します。それは研究および生産目的で使用されます。複雑な数学演算をすばやく実行するのに役立つ最適化手法があります。 Tensorは、TensorFlowで使用されるデータ構造です。フロー図のエッジを接続するのに役立ちます。このフロー図は「データフローグラフ」と呼ばれます。テンソルは多次元配列またはリストに他なりません。 Kerasは、プロジェクトONEIROS(オープンエンドの神経電子イン