Python
 Computer >> コンピューター >  >> プログラミング >> Python

PDFをテキストに変換するためにPythonで利用できるモジュールは何ですか?


PDFMinerパッケージを使用してPDFをテキストに変換できます。

次のように使用できます:

 import sys
from cStringIO import StringIO
 from pdfminer.pdfpage importPDFPage
from pdfminer.pdfinterp importPDFResourceManager, PDFPageInterpreter
from pdfminer.layout importLAParams
from pdfminer.converter importXMLConverter, HTMLConverter, TextConverter
 def pdfparser(data):
    fp = file(data, 'rb')
    resource_manager = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(resource_manager,retstr, codec=codec, laparams=laparams)
    interpreter =PDFPageInterpreter(resource_manager, device)
 
    # Process each page contained in thedocument.
    for page in PDFPage.get_pages(fp):
        interpreter.process_page(page)
        data = retstr.getvalue()
    print data
 pdfparser('filename.pdf')

これはPDFファイルを取り込み、PDFPageInterpreterクラスのprocess_page関数を使用して、ページごとにテキストを抽出します。

テキストの抽出に使用するAPIがはるかに簡単なPDFMinerの代替手段があります。 pyPDFは正常に機能します(整形式のPDFを使用していると仮定します)。テキスト(スペース付き)だけが必要な場合は、次の操作を実行できます。

import pyPdf
pdf = pyPdf.PdfFileReader(open('filename.pdf',"rb"))
for page in pdf.pages:
    print page.extractText()

  1. テキストマイニングのアプリケーションは何ですか?

    テキストマイニングは、テキスト分析とも呼ばれます。これは、簡単な分析のために非構造化テキストを構造化データに変換する手順です。テキストマイニングは自然言語処理(NLP)を適用し、機械が人間の言語を認識して自動的に処理できるようにします。 これは、標準言語のテキストから重要な情報を抽出する手順として定義されています。テキストメッセージ、レコード、電子メール、ファイルを介して生成できる一部のデータは、共通言語のテキストで記述されています。テキストマイニングは通常、そのようなデータから有益な洞察やパターンを引き出すために使用されます。 テキストマイニングには、次のようなさまざまなアプリケーション

  2. DESのバリエーションは何ですか?

    データ暗号化規格には主に2つのバリエーションがあります- ダブルDES −ダブルDESは、同じプレーンテキスト上にDESの2つのインスタンスを必要とする暗号化アプローチです。どちらの場合も、複数のキーを使用してプレーンテキストを暗号化します。復号化時に両方のキーが必要です。 64ビットのプレーンテキストは最初のDESインスタンスに送られ、最初のキーを使用して64ビットの中間テキストに変換されます。したがって、2番目のキーを使用して64ビットの暗号文を提供する2番目のDESインスタンスに送られます。 ダブルDESは、通常のDESと同じように簡単です。ダブルDESには、このアルゴリズムで