Pythonを使用してPDFをCSVに変換する
Pythonは、パッケージの膨大なライブラリでよく知られています。ライブラリの助けを借りて、PDFをCSVファイルに変換する方法を見ていきます。 CSVファイルは、一連の行と列とともにフレーム化されたデータのコレクションに他なりません。 PythonライブラリにはPDFをCSVに変換するためのさまざまなパッケージがありますが、Tabula-pyモジュールを使用します 。 tabula-pyの大部分はJavaで記述されており、最初にPDFドキュメントを読み取り、PythonDataFrameをJSONオブジェクトに変換します。
tabula-pyを使用するには、システムにJavaがプリインストールされている必要があります。 PDFファイルをCSVに変換するには、次の手順に従います-
-
まず、 pip install tabula-py と入力して、必要なパッケージをインストールします コマンドシェルで。
-
次に、 read_pdf( "file location"、pages =number)を使用してファイルを読み取ります 働き。これにより、DataFrameが返されます。
-
tabula.convert_into(‘pdf-filename’、‘name_this_file.csv’、output_format ="csv"、pages ="all")を使用してDataFrameをExcelファイルに変換します 。通常、PDFファイルをExcelファイルにエクスポートします。
例
この例では、IPL一致スケジュールドキュメントを使用しました Excelファイルに変換します。
# Import the required Module import tabula # Read a PDF File df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0] # convert PDF into CSV tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all') print(df)
出力
上記のコードを実行すると、PDFファイルがExcel(CSV)ファイルに変換されます。
-
EPSファイルをPDFに変換する方法は?
Encapsulated PostScript(EPS)は、画像、ビットマップ、テキスト、および2Dベクターグラフィックを含む標準のグラフィックファイル形式です。一方、PDFファイルは、読み取り専用ドキュメントに使用されるポータブルドキュメント形式です。一部のユーザーは、ロゴまたはある種の画像を含むEPSファイルをPDFファイルに変換して、他のドキュメントとマージする必要があります。これは、これらのファイルにコンバータツールを使用しないと不可能です。この記事では、EPSファイルをPDFに簡単に変換するのに役立つツールをいくつか紹介します。 EPSファイルをPDFに変換するためにユーザーが使
-
既存のファイルをPDFに変換する方法は?
既存のMSWordまたはMSExcelファイルをPDFに変換するのが非常に難しいと感じる人はたくさんいます。そして、人々がこれらのファイルをPDF形式に変換するために使用したWebサイトもあります。 ExcelとWordの両方に、これらのアプリケーション内で作業内容をPDFとして保存するオプションがあるため、通常のファイルをPDFにするためにWebサイトを実際に使用する必要はありません。 pdfの仕事に多くの言葉を使わなければならなかったので、これは間違いなく私の大学生活を楽にしてくれました。うまくいけば、これもあなたの助けになるでしょう。 これがあなたがする必要があることです。 必要なド