Python
 Computer >> コンピューター >  >> プログラミング >> Python

TensorflowとPythonを使用して、文中のすべての単語のコードポイントを取得するにはどうすればよいですか?


文中のすべての単語のコードポイントを取得するには、最初に、文が単語の先頭であるかどうかを確認します。次に、文字のインデックスが、すべての文の文字のフラット化されたリスト内の特定の単語のインデックスから始まっているかどうかを確認します。これが確認されると、以下の方法を使用して、すべての単語のすべての文字のコードポイントが取得されます。

スクリプト識別子は、単語の境界と追加する場所を決定するのに役立ちます。単語の境界は、文の先頭と、スクリプトが前の文字とは異なる文字ごとに追加されます。開始オフセットを使用して、RaggedTensorを構築できます。このRaggedTensorには、すべてのバッチの単語のリストが含まれます

続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか?

Pythonを使用してUnicode文字列を表現する方法を理解し、同等のUnicodeを使用してそれらを操作してみましょう。まず、標準の文字列操作に相当するUnicodeを使用して、スクリプト検出に基づいてUnicode文字列をトークンに分割します。

Google Colaboratoryを使用して、以下のコードを実行しています。 Google ColabまたはColaboratoryは、ブラウザー上でPythonコードを実行するのに役立ち、構成が不要で、GPU(グラフィックプロセッシングユニット)に無料でアクセスできます。 ColaboratoryはJupyterNotebookの上に構築されています。

print("Check if sentence is the start of the word")
sentence_char_starts_word = tf.concat(
   [tf.fill([sentence_char_script.nrows(), 1], True),
    tf.not_equal(sentence_char_script[:, 1:], sentence_char_script[:, :-1])],
   axis=1)
print("Check if index of character starts from specific index of word in flattened list of characters from all sentences")
word_starts = tf.squeeze(tf.where(sentence_char_starts_word.values), axis=1)
print(word_starts)
print("Get the code point of every character in every word")
word_char_codepoint = tf.RaggedTensor.from_row_starts(
   values=sentence_char_codepoint.values,
   row_starts=word_starts)
print(word_char_codepoint)

コードクレジット:https://www.tensorflow.org/tutorials/load_data/unicode

出力

Check if sentence is the start of the word
Check if index of character starts from specific index of word in flattened list of characters from all sentences
tf.Tensor([ 0   5   7 12 13 15], shape=(6,), dtype=int64)
Get the code point of every character in every word
<tf.RaggedTensor [[72, 101, 108, 108, 111], [44, 32], [116, 104, 101, 114, 101], [46], [19990, 30028], [12371, 12435, 12395, 12385, 12399]]>

説明

  • スクリプト識別子は、単語の境界を追加する場所を決定するのに役立ちます。
  • 単語の境界は、すべての文の先頭と、スクリプトが前の文字とは異なる文字ごとに追加されます。
  • 次に、これらの開始オフセットを使用してRaggedTensorを構築できます。
  • このRaggedTensorには、すべてのバッチの単語のリストが含まれています

  1. Tensorflowを使用してPythonを使用してモデルをトレーニングするにはどうすればよいですか?

    モデルは、Tensorflowの「train」メソッドを使用してトレーニングできます。この方法では、エポック(モデルに合うようにデータをトレーニングする必要がある回数)とトレーニングデータが指定されます。 続きを読む: TensorFlowとは何ですか?KerasはTensorFlowとどのように連携してニューラルネットワークを作成しますか? Google Colaboratoryを使用して、以下のコードを実行しています。 Google ColabまたはColaboratoryは、ブラウザー上でPythonコードを実行するのに役立ち、構成が不要で、GPU(グラフィックプロセッシングユニット

  2. Kerasを使用してコールバックを作成し、Pythonを使用して重みを保存するにはどうすればよいですか?

    Tensorflowは、Googleが提供する機械学習フレームワークです。これは、Pythonと組み合わせて使用​​されるオープンソースのフレームワークであり、アルゴリズム、深層学習アプリケーションなどを実装します。それは研究および生産目的で使用されます。複雑な数学演算をすばやく実行するのに役立つ最適化手法があります。これは、NumPyと多次元配列を使用しているためです。これらの多次元配列は「テンソル」とも呼ばれます。 「tensorflow」パッケージは、以下のコード行を使用してWindowsにインストールできます- pip install tensorflow Tensorは、Tens