Pythonモジュールを処理するURL(urllib)
Python言語は、Webプログラミングに広く使用されています。 Webサイトを閲覧するときは、URLまたはユニフォームリソースロケーターとも呼ばれるWebアドレスを使用します。 Pythonには、URLへの呼び出しを処理し、URLにアクセスした結果を渡すことができるマテリアルが組み込まれています。この記事では、 urllibという名前のモジュールを紹介します。 。このモジュールには、URLから結果を取得するのに役立つさまざまな関数も表示されます。
urllibのインストール
Python環境にurllibをインストールするには、pipを使用して以下のコマンドを使用します。
pip install urllib
上記のコードを実行すると、次の結果が得られます-
URLを開く
request.urlopenメソッドは、URLにアクセスし、そのコンテンツをPython環境にフェッチするために使用されます。
例
import urllib.request address = urllib.request.urlopen('https://www.tutorialspoint.com/') print(address.read())
出力
上記のコードを実行すると、次の結果が得られます-
b'<!DOCTYPE html>\r\n<!--[if IE 8]><html class="ie ie8"> <![endif]-->\r\n<!--[if IE 9]><html class…….. …………… ………………. new Date());\r\ngtag(\'config\', \'UA-232293-6\');\r\n</script>\r\n</body>\r\n</html>\r\n' -->
urllib.parse
URLを解析して、有効なURLかどうかを確認できます。検索オプションにクエリ文字列を渡すこともできます。応答の有効性を確認でき、有効な場合は応答全体を印刷できます。
例
import urllib.request import urllib.parse url='https://tutorialspoint.com' values= {'q':'python'} data = urllib.parse.urlencode(values) data = data.encode('utf-8') # data should be bytes print(data) req = urllib.request.Request(url, data) resp = urllib.request.urlopen(req) print(resp) respData = resp.read() print(respData)
出力
上記のコードを実行すると、次の結果が得られます-
b'q=python' <http.client.HTTPResponse object at 0x00000195BF706850> b'<!DOCTYPE html>\r\n<!--[if IE 8]><html class="ie ie8"> <![endif]………… ………………… \r\n</script>\r\n</body>\r\n</html<\r\n' -->>
urllib.parse.urlsplit
urlsplitを使用してURLを取り込み、それをパーツに分割して、さらにデータを操作することができます。たとえば、URLがSSL認定されているかどうかをプログラムで判断する場合は、urlsplitを適用し、スキーム値を取得して決定します。以下の例では、提供されたURLのさまざまな部分を確認します。X
出力
import urllib.parse url='https://tutorialspoint.com/python' value = urllib.parse.urlsplit(url) print(value)
上記のコードを実行すると、次の結果が得られます-
SplitResult(scheme='https', netloc='tutorialspoint.com', path='/python', query='', fragment='')
-
Pythonモジュール:モジュールを作成する方法
モジュールはPythonの機能であり、コードを複数のファイルに分割できます。 Pythonモジュールは、拡張子が「.py」で終わるファイルです。 このガイドでは、例を示し、Pythonモジュールの作成方法を学習します。 Pythonモジュール:入門書 モジュールは、Pythonプログラムファイルの別の言葉です。これは、.pyで終わるPythonプロジェクト内のすべてのファイルを意味します 拡張機能はモジュールとして扱うことができます。モジュールには、関数、変数、クラスを含めることができ、独自のライブラリをインポートすることもできます。 Pythonには、主に3つのタイプのモジュ
-
PythonでPDFからハイパーリンクを抽出する
Pythonには、さまざまなタイプの操作を処理するためのライブラリの大規模なセットがあります。 PDFからデータとメタ情報を抽出するには、PyPdf2パッケージを使用します。使いやすく、PDFからのデータの抽出、ドキュメント内のキーワードの検索、ハイパーリンク、URL、その他の情報の検索などのメタ情報の抽出など、さまざまな操作やツールキットがあります。 PyPDF2パッケージを使用して、PDFドキュメントからハイパーリンクを抽出します。 次の手順に従って、PDFからハイパーリンクを抽出します pip install PyPDF2 と入力して、ローカルマシンにPyPDF2をインストール