Python
 Computer >> コンピューター >  >> プログラミング >> Python

TensorflowテキストをPythonの空白トークンライザーでどのように使用できますか?


Tensorflowテキストは、文字列の「tokenize」メソッドで使用されるトークナイザーを作成する「WhitespaceTokenizer」を呼び出すことで、ホワイトスペーストークナイザーで使用できます。

続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか?

Keras Sequential APIを使用します。これは、すべてのレイヤーに1つの入力テンソルと1つの出力テンソルがあるプレーンスタックのレイヤーを操作するために使用されるシーケンシャルモデルの構築に役立ちます。

少なくとも1つの層を含むニューラルネットワークは、畳み込み層と呼ばれます。畳み込みニューラルネットワークを使用して、学習モデルを構築できます。

TensorFlow Textには、TensorFlow2.0で使用できるテキスト関連のクラスとオペレーションのコレクションが含まれています。 TensorFlow Textを使用して、シーケンスモデリングを前処理できます。

Google Colaboratoryを使用して、以下のコードを実行しています。 Google ColabまたはColaboratoryは、ブラウザー上でPythonコードを実行するのに役立ち、構成が不要で、GPU(グラフィックプロセッシングユニット)に無料でアクセスできます。 ColaboratoryはJupyterNotebookの上に構築されています。

トークン化は、文字列をトークンに分解する方法です。これらのトークンは、単語、数字、または句読点にすることができます。主要なインターフェースには、TokenizerとTokenizerWithOffsetsがあり、それぞれに単一のメソッドtokenizeとtokenize_with_offsetsがあります。複数のトークナイザーがあり、それぞれがTokenizerWithOffsets(Tokenizerクラスを拡張する)を実装しています。これには、元の文字列にバイトオフセットを取得するオプションが含まれます。これは、トークンが作成された元の文字列のバイトを知るのに役立ちます。

N-gramは、サイズnのスライディングウィンドウが指定された場合の連続した単語です。トークンを組み合わせると、3つの削減メカニズムがサポートされます。テキストには、Reduction.STRING_JOINを使用できます。文字列を相互に追加します。デフォルトの区切り文字はスペースですが、string_separater引数で変更できます。

他の削減方法は数値で使用され、Reduction.SUMとReduction.MEANです。

print("Whitespace tokenizer is being called")
tokenizer = text.WhitespaceTokenizer()
tokens = tokenizer.tokenize(['Everything not saved will be lost.', u'Sad☹'.encode('UTF-8')])
print("Here, n is 2, hence it is bigram")
bigrams = text.ngrams(tokens, 2, reduction_type=text.Reduction.STRING_JOIN)
print("The bigrams are converted to a list")
print(bigrams.to_list())

出力

Whitespace tokenizer is being called
Here, n is 2, hence it is bigram
The bigrams are converted to a list
[[b'Everything not', b'not saved', b'saved will', b'will be', b'be lost.'], []]

説明

  • 空白のトークナイザーが呼び出されます。
  • 「n」の値は2に設定されているため、バイグラムと呼ばれます。
  • トークンはリストに保存され、コンソールに表示されます。

  1. Kerasを使用してPythonで新しいコールバックを使用してモデルをトレーニングするにはどうすればよいですか?

    Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズム、深層学習アプリケーションなどを実装します。それは研究および生産目的で使用されます。複雑な数学演算をすばやく実行するのに役立つ最適化手法があります。 「tensorflow」パッケージは、以下のコード行を使用してWindowsにインストールできます- pip install tensorflow Tensorは、TensorFlowで使用されるデータ構造です。フロー図のエッジを接続するのに役立ちます。このフロー図は「デー

  2. Tensorflowを使用してPythonを使用して2つの行列を乗算するにはどうすればよいですか?

    Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズム、深層学習アプリケーションなどを実装します。それは研究および生産目的で使用されます。複雑な数学演算をすばやく実行するのに役立つ最適化手法があります。 これは、NumPyと多次元配列を使用しているためです。これらの多次元配列は「テンソル」とも呼ばれます。フレームワークは、ディープニューラルネットワークの操作をサポートします。これは非常にスケーラブルであり、多くの一般的なデータセットが付属しています。 GPU計算を使用し、リソ