日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

python下wordpdf轉(zhuǎn)換總結(jié)

系統(tǒng) 1700 0
??

近期涉及到了關(guān)于 doc 文檔讀取的處理,也查了很久,為了便于大家使用,故集大成一下。

Doc 文檔讀取有如下幾種:

1 、從 doc 讀取文本

?????? 目前沒有找到直接的方式,一般是先轉(zhuǎn)為 docx 文件在處理。所使用工具為 doc2doc( 批量時(shí)可用 ) ,或人工另存處理。

?

2 、從 docx 讀取文本

?????? 一般使用 python-docx 庫的方法,但只支持創(chuàng)建新文檔和讀取一些基本的文件數(shù)據(jù),如文件大小和文件標(biāo)題,不支持正文讀取。

?????? 或直接從 docx 中讀取 xml 的方法。

?

3 、從 pdf 讀取文本

?????? 一般使用 pdfminer3k 庫或 pyPdf 庫。其中 pyPdf 用起來其實(shí)稍顯麻煩,很多操作不夠方便。 pdfminer 對表格不友好,也可以將 PDF 轉(zhuǎn)換為 text 文本,還可以轉(zhuǎn)換為 HTML 等帶有標(biāo)簽的文本。

?????? 還有一種可以用 pdf2htmlex( python) ,先把 pdf 轉(zhuǎn) html ,接下來再用 bs4 來解析處理。這樣的好處是處理 html 的工具非常非常豐富,且 pdf2htmlex 對原頁面的效果保持得特別好,特別是對于那些個(gè)用 word latex 導(dǎo)出的 pdf 里,大量數(shù)據(jù)圖表里的標(biāo)簽可以很方便地提取所需的值。

?

4 、把 pdf 中圖存為 jpg 文件

?????? 一般可以使用 PythonMagick 庫。

?

以上的代碼處理,均在 https://github.com/renwoxing2016/


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會(huì)非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 宜黄县| 尤溪县| 本溪市| 封丘县| 玉环县| 东港市| 安平县| 运城市| 抚州市| 增城市| 包头市| 西贡区| 万年县| 石河子市| 勃利县| 射阳县| 巍山| 霍林郭勒市| 阿图什市| 诏安县| 股票| 汉川市| 丹阳市| 维西| 丰台区| 杭锦旗| 建昌县| 宁远县| 类乌齐县| 苏尼特右旗| 房产| 抚顺市| 花莲市| 延吉市| 郴州市| 宁陵县| 宜丰县| 固安县| 云林县| 广丰县| 西安市|