Python
 Computer >> コンピューター >  >> プログラミング >> Python

PythonでMicrosoftWordを読む方法は?


はじめに...

不快感はありません。MicrosoftWordやスプレッドシートは好きではありません。データエンジニアリングのスペシャリストである私は、MicrosoftWordでテスターからテスト結果を受け取ることがよくあります。はぁ!彼らは、スクリーンショット、リンク、大きな、非常に大きな、非常に大きな段落をキャプチャすることから、Word文書に非常に多くの情報を入れました。 Microsoft Wordには、単純なテキストドキュメントや小さな情報を、マシンごとにフォーマットが失われることが多い、大きくて遅くて厄介な獣に変えるための特別な才能がありました。

しかし、自分にとって悪いことは他の人にとっても非常に良いという事実を受け入れる必要があります。

文脈に戻ると、Pythonによるwordのサポートはあまり良くありません。 Python-docxライブラリを使用すると、ユーザーはドキュメントを作成し、実際の内容ではなく、ファイルのサイズやタイトルなどの基本的なファイルデータのみを読み取ることができます。したがって、テスト結果を処理するには、カスタムコードを考え出す必要があります。

インターネットで入手できるサンプルのWord文書をインポートします。ファイルは次の場所にあります-https://file-examples-com.github.io/uploads/2017/02/file-sample_100kB.docx。

方法...

1.インポートから始めましょう。

from zipfile import ZipFile
from urllib.request import urlopen
from io import BytesIO

2.次に、リモートのWord文書をバイナリファイルオブジェクトとして読み取ります。次に、zipfileライブラリを使用して解凍し、解凍したファイル(XML)を読み取ります。

オフコース、コンテンツを印刷します。

file_url = 'https://file-examples-com.github.io/uploads/2017/02/file-sample_100kB.docx'

# read the word document
wordDocx = urlopen(file_url).read()
wordDocx = BytesIO(wordDocx)
document = ZipFile(wordDocx)

#get the xml content
xml_content = document.read('word/document.xml')

# print the xml content
print(xml_content.decode('utf-8'))


 <?xml version ='1.0' encoding ='UTF-8' folder ='yes'?>    
            Lorem ipsum   
 
                                   
 
                 Lorem ipsum dolor sit amet、consecteturadipiscingelit。 Nunc ac faucibus odio   
 
                                   
 
                                   Vestibulum neque massa、scelerisque sit amet ligula eu、conguemolstiemi。 Praesent utvariussem。 porttitor arcu、neclacinianisiでのNullam。 Ut ac dolor vitae odiointerdumcondimentum。                Vivamus dapibus sodales ex、vitae malesuada ipsumcursusconvallis。 Maecenas sed egestas nulla、accondimentumorci。               Mauris diam felis、vulputate ac suscipit et、iaculisnonest。Curabitursemperarcu ac ligula semper、nec luctusnislblandit。整数laciniaanteacliberolobortisimperdiet。                Nullam mollis convallis ipsum、ac accumsan nuncvehiculavitae。               Nulla eget justo in felistristiquefringilla。モルビは、アメット・トーター・クイス・リサス・アウクター・コンディメンタムに座ります。 ullamcorperエリートのモルビ。 Nulla iaculis tellus sit amet mauris tempusfringilla。  
 
                                   Maecenas mauris lectus、lobortis et purus mattis、blandit dictumtellus。  
 
                                         Maecenas non lorem quis tellusplaceratvarius。   
 
                                        Nullafacilisi。   
 
                                         Aenean congue fringilla justoutaliquam。   
 
                                         Mauris idexerat。                Nunc vulputate neque vitae justo facilisis、non condimentumantesagittis。   
 
                                       Morbi viverra semper loremnecmolestie。   
 
                                       Maecenas tincidunt est efficitur ligula euismod、sit amet ornare estvulputate。  
 
                                
 
                                   
 
                                   
 
                                   
 
                                   
 
                                   
 
                                  
 
                                   
 
                                   
 
                                  非モーリスジャスト。 Duis vehicula mi vel mi pretium、viverraeratefficitur。 Cras aliquam est ac eros varius、id iaculisduiauctor。 Duis pretium neque ligula、et pulvinar miplaceratet。 Nulla nec nunc sit amet nuncposuerevestibulum。 Ut id neque eget tortormattistristique。 Donec ante est、blandit sit amet tristique vel、laciniapulvinararcu。 Pellentesque scelerisque fermentum erat、id posuere justopulvinarut。 Cras id eros sed enimaliquamlobortis。 Sed lobortis nisl ut erosefficiturtincidunt。 Cras justo mi、porttitor quis mattis vel、ultriciesutpurus。 Ut facilisis et lacus eucursus。  
 
                                   eleifend velit vitae liberosollicitudineuismod。 Fusce vitaevestibulumvelit。 Pellentesque vulputate lectusquispellentesqueコモド。 Aliquameratvolutpat。 egestasvelitの前庭。 Pellentesque fermentum nisl vitaefringillavenenatis。 Etiam id mauris vitae orcimaximusultricies。   
 
                                   
 
                 C ras fringilla ipsum magna、fringilla dui commodoa。  
 
                                  
                                               
                                   
                  
                                   Lorem ipsum   
                  
               Lorem ipsum   
                  
               Lorem ipsum   
                       
               1   
                  
             Pythonで構造化文字列から必要なデータを抽出するにはどうすればよいですか?        
                
  1. Microsoft Wordの段落を作成し、Pythonで画像を挿入する方法は?

    はじめに... データエンジニアリングのスペシャリストである私は、MicrosoftWordでテスターからテスト結果を受け取ることがよくあります。はぁ!スクリーンショットや非常に大きな段落をキャプチャすることで、Word文書に非常に多くの情報を投入しました。 先日、テストチームから、ツールで生成されたテキストと画像(自動スクリーンショットで撮影。この記事では取り上げていません)を挿入するプログラムのサポートを依頼されました。 MS Word文書は、他の文書とは異なり、残念ながら段落で機能するため、ページの概念がありません。したがって、文書を適切に分割するには、区切り文字とセクションを使用

  2. 無料でMicrosoftWordでGrammarlyを使用する方法

    ほとんどのオフィスでの仕事では、文法スキルはコンテンツを読みやすく理解しやすいものにするため、非常に重要です。ただし、作成するすべてのレポートや資料で文法が最上位にあることを確認するには時間がかかり、実際に生産性が低下します。この場合、Grammarlyのようなツールは、文法エラーを見つけるのに必要なものになります。 確かに、それは人間の編集者ほど良くはありませんが、かなり近いです。無料版を超えると、スペルミス、動詞の一致、主語の一致、文の形成、句読点の間違いなどをチェックできます。 単語を頻繁に扱う場合は、Grammarlyがすでに最も人気のあるオンラインおよびオフラインのチェックツー