日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

python基于pdfminer庫提取pdf文字代碼實例

系統 1691 0

安裝pdfminer 庫

windows 下安裝pdfminer3k

            
pip install pdfminer3k
          

Liunx 下安裝pdfminer

            
pip install pdfminer
          

代碼

            
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed, PDFResourceManager, PDFPageInterpreter
def pdfParse(path):
"""
pdf文字提取
:param path:文件路徑
:return: 每頁結果列表
"""
fp = open(path, 'rb') # 以二進制讀模式打開
# 用文件對象來創建一個pdf文檔分析器
praser = PDFParser(fp)
# 創建一個PDF文檔
doc = PDFDocument()
# 連接分析器 與文檔對象
praser.set_document(doc)
doc.set_parser(praser)
# 提供初始化密碼
# 如果沒有密碼 就創建一個空的字符串
doc.initialize()
# 檢測文檔是否提供txt轉換,不提供就忽略
if not doc.is_extractable:
 raise PDFTextExtractionNotAllowed
else:
 # 創建PDf 資源管理器 來管理共享資源
 rsrcmgr = PDFResourceManager()
 # 創建一個PDF設備對象
 laparams = LAParams()
 device = PDFPageAggregator(rsrcmgr, laparams=laparams)
 # 創建一個PDF解釋器對象
 interpreter = PDFPageInterpreter(rsrcmgr, device)
 #每頁文字內容
 results = []
 # 循環遍歷列表,每次處理一個page的內容
 for page in doc.get_pages(): # doc.get_pages() 獲取page列表
  interpreter.process_page(page)
  # 接受該頁面的LTPage對象
  layout = device.get_result()
  # 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性,
  for x in layout:
   if isinstance(x, LTTextBoxHorizontal):
    results.append(x.get_text())
 return results
          

該庫是根據 迭代pdf每一頁 進行文字提取, 也可以識別判斷頁碼的功能

另外還有一個pypdf2 庫也可以識別但是感覺不如這個準確

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 鲁山县| 承德市| 德保县| 新化县| 绩溪县| 文成县| 瑞金市| 星子县| 克山县| 积石山| 小金县| 平顺县| 南充市| 青阳县| 香格里拉县| 奉节县| 喀喇沁旗| 陇西县| 白城市| 东莞市| 故城县| 涡阳县| 千阳县| 桐城市| 怀集县| 龙里县| 扎囊县| 晴隆县| 万源市| 荥经县| 永城市| 宜黄县| 古交市| 昭觉县| 灵璧县| 阳原县| 琼结县| 扶余县| 扶沟县| 高尔夫| 新津县|