Python
 Computer >> コンピューター >  >> プログラミング >> Python

Pythonを使用してPDFをCSVに変換する


Pythonは、パッケージの膨大なライブラリでよく知られています。ライブラリの助けを借りて、PDFをCSVファイルに変換する方法を見ていきます。 CSVファイルは、一連の行と列とともにフレーム化されたデータのコレクションに他なりません。 PythonライブラリにはPDFをCSVに変換するためのさまざまなパッケージがありますが、Tabula-pyモジュールを使用します 。 tabula-pyの大部分はJavaで記述されており、最初にPDFドキュメントを読み取り、PythonDataFrameをJSONオブジェクトに変換します。

tabula-pyを使用するには、システムにJavaがプリインストールされている必要があります。 PDFファイルをCSVに変換するには、次の手順に従います-

  • まず、 pip install tabula-py と入力して、必要なパッケージをインストールします コマンドシェルで。

  • 次に、 read_pdf( "file location"、pages =number)を使用してファイルを読み取ります 働き。これにより、DataFrameが返されます。

  • tabula.convert_into(‘pdf-filename’、‘name_this_file.csv’、output_format ="csv"、pages ="all")を使用してDataFrameをExcelファイルに変換します 。通常、PDFファイルをExcelファイルにエクスポートします。

この例では、IPL一致スケジュールドキュメントを使用しました Excelファイルに変換します。

# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df)

出力

上記のコードを実行すると、PDFファイルがExcel(CSV)ファイルに変換されます。

Pythonを使用してPDFをCSVに変換する


  1. EPSファイルをPDFに変換する方法は?

    Encapsulated PostScript(EPS)は、画像、ビットマップ、テキスト、および2Dベクターグラフィックを含む標準のグラフィックファイル形式です。一方、PDFファイルは、読み取り専用ドキュメントに使用されるポータブルドキュメント形式です。一部のユーザーは、ロゴまたはある種の画像を含むEPSファイルをPDFファイルに変換して、他のドキュメントとマージする必要があります。これは、これらのファイルにコンバータツールを使用しないと不可能です。この記事では、EPSファイルをPDFに簡単に変換するのに役立つツールをいくつか紹介します。 EPSファイルをPDFに変換するためにユーザーが使

  2. 既存のファイルをPDFに変換する方法は?

    既存のMSWordまたはMSExcelファイルをPDFに変換するのが非常に難しいと感じる人はたくさんいます。そして、人々がこれらのファイルをPDF形式に変換するために使用したWebサイトもあります。 ExcelとWordの両方に、これらのアプリケーション内で作業内容をPDFとして保存するオプションがあるため、通常のファイルをPDFにするためにWebサイトを実際に使用する必要はありません。 pdfの仕事に多くの言葉を使わなければならなかったので、これは間違いなく私の大学生活を楽にしてくれました。うまくいけば、これもあなたの助けになるでしょう。 これがあなたがする必要があることです。 必要なド