Python
 Computer >> コンピューター >  >> プログラミング >> Python

Pythonの正規表現とは何ですか?


簡単に言うと、正規表現は、主に文字列またはファイル内のパターンを検索して置換するために使用される文字のシーケンスです。これらは、python、perl、R、Javaなどのほとんどのプログラミング言語でサポートされています。

正規表現は、コード、ログファイル、スプレッドシート、さらにはドキュメントなどのテキストから情報を抽出する場合に非常に役立ちます。正規表現の実際の使用法について詳しく説明します。

正規表現を使用するときに最初に知っておくべきことは、すべてが基本的に文字であり、特定の文字シーケンス(文字列とも呼ばれる)に一致するパターンを作成することです。ほとんどのパターンは通常のASCIIを使用します。これには、文字、数字、句読点、および%#$ @!などのコンピューターキーボード上のその他の記号が含まれますが、Unicode文字を使用してあらゆる種類の国際テキストに一致させることもできます。

Pythonには、正規表現で機能するモジュール「re」があります。したがって、Pythonで正規表現を使用する前に、ライブラリreをインポートする必要があります。

正規表現の最も一般的な使用法は次のとおりです。

文字列を検索(検索して一致)

文字列の検索(findall)

文字列をサブ文字列に分割(分割)

文字列の一部を置き換える(サブ)


  1. Pythonバイトストリングとは何ですか?

    文字列は文字のシーケンスです。これらは抽象的な概念であり、ディスクに直接保存することはできません。バイト文字列はバイトのシーケンスであり、ディスクに保存できるものです。それらの間のマッピングはエンコーディングです-これらはかなりたくさんあります(そして無限に多くが可能です)-そして、異なるエンコーディングが同じバイトをマッピングする可能性があるため、変換を行うために特定の場合にどちらが適用されるかを知る必要があります別の文字列に。たとえば、同じバイト文字列は、2つの異なるエンコーディングで2つの異なる文字列を表すことができます。たとえば、 >>> b'\xcf\x84

  2. 文字列が英数字かどうかを確認するPython正規表現とは何ですか?

    モジュールの正規表現または正規表現を使用して文字列が英数字のみで構成されているかどうかを確認するには、正規表現 ^ [a-zA-Z0-9] + $を使用してre.match(regex、string)を呼び出すことができます。 たとえば、 >>> bool(re.match('^[a-zA-Z0-9]+$', '789def')) True >>> bool(re.match('^[a-zA-Z0-9]+$', '789#%$def')) False re.matchはオブジェクトを返しま