午夜视频免费看_日韩三级电影网站_国产精品久久一级_亚洲一级在线播放_人妻体内射精一区二区三区_91夜夜揉人人捏人人添红杏_91福利在线导航_国产又粗又猛又黄又爽无遮挡_欧美日韩一区在线播放_中文字幕一区二区三区四区不卡 _日日夜夜精品视频免费观看_欧美韩日一区二区三区

主頁 > 知識庫 > 用Python提取PDF表格的方法

用Python提取PDF表格的方法

熱門標(biāo)簽:京華圖書館地圖標(biāo)注 廣東旅游地圖標(biāo)注 打印谷歌地圖標(biāo)注 蘇州人工外呼系統(tǒng)軟件 淮安呼叫中心外呼系統(tǒng)如何 看懂地圖標(biāo)注方法 佛山通用400電話申請 電話外呼系統(tǒng)招商代理 電話機器人貸款詐騙

大家好,從PDF中提取信息是辦公場景中經(jīng)常需要用到的操作,也是經(jīng)常又讀者在后臺問的一個操作。

內(nèi)容少的話我們可以手動復(fù)制粘貼,但如果需要批量提取就可以考慮使用Python,之前我也轉(zhuǎn)載過相關(guān)文章,提到主要就是使用pdfplumber庫,今天我們再次舉例講解。

通常PDF里的表格分為圖片型和文本型。文本型又分簡單型和復(fù)雜型。本文就針對這三部分舉例講解。

  • 提取簡單型表格
  • 提取較為復(fù)雜型表格
  • 提取圖片型表格

用到的模塊主要有

  • pdfplumber
  • pandas
  • Tesseract
  • PIL

文中出現(xiàn)的PDF材料是在巨潮資訊官網(wǎng)下載的公開PDF文件,主題是關(guān)于理財?shù)?,相關(guān)發(fā)布信息等信息如下:

內(nèi)容總共有6頁,后文中的例子會有展示。

一、簡單文本類型數(shù)據(jù)

簡單文本類型表格就是一頁PDF中只有一個表格,并且表格內(nèi)容完整可復(fù)制,例如我們選定內(nèi)容為PDF中的第四頁,內(nèi)容如下:

可以看到,該頁只有一個表格,下面我們將這個表寫入Excel中,先上代碼

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購買銀行理財產(chǎn)品的進(jìn)展公告.PDF')
ps = pdf.pages
pg = ps[3]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df1.to_excel('page2.xlsx')

得到的結(jié)果如下:

通過與PDF上原表格對比,在內(nèi)容上是完全一致的,唯一不同的是由于主營業(yè)務(wù)內(nèi)容較多,導(dǎo)致顯示的不全面,現(xiàn)在來說說這段代碼。

首先導(dǎo)入要用到的兩個庫。在pdfplumber中,open()函數(shù)是用來打開PDF文件,該代碼用的是相對路徑。.open().pages則是獲取PDF的頁數(shù),打印ps值可以得到如下

pg = ps[3]代表的就是我們所選的第三頁。

pg.extract_tables():可輸出頁面中所有表格,并返回一個嵌套列表,其結(jié)構(gòu)層次為table→row→cell。此時,頁面上的整個表格被放入一個大列表中,原表格中的各行組成該大列表中的各個子列表。若需輸出單個外層列表元素,得到的便是由原表格同一行元素構(gòu)成的列表。

與其類似的是pg.extract_table( ):返回多個獨立列表,其結(jié)構(gòu)層次為row→cell。若頁面中存在多個行數(shù)相同的表格,則默認(rèn)輸出頂部表格;否則,僅輸出行數(shù)最多的一個表格。此時,表格的每一行都作為一個單獨的列表,列表中每個元素即為原表格的各個單元格內(nèi)容。

由于該頁面中只有一個表格,我們需要tables集合中的第一個元素。打印table值,如下:

可以看到在上述中是存在\n這種沒不要的字符,它的作用其實是換行但我們在Excel中是不需要的。所以需要剔除它,用代碼中的for循環(huán)與replace函數(shù)將控制替換成空格(即刪除\n)。觀察table是一個裝有2個元素的列表。

最后df1 = pd.DataFrame(table[1:],columns = table[0])這段代碼的作用就是創(chuàng)建一個數(shù)據(jù)框,將內(nèi)容放到對應(yīng)的行列中。

本代碼只是簡單將數(shù)據(jù)存入到Excel,如果你需要進(jìn)一步對樣式進(jìn)行調(diào)整,可以使用openpyxl等模塊進(jìn)行修改。

二、復(fù)雜型表格提取

復(fù)雜型表格即表格樣式不統(tǒng)一或一頁中有多個表格,以PDF中的第五頁為例:

可以看到本頁中有兩個大的表格,并且細(xì)看的話,其實是4個表格,按照簡單型表格類型提取方法,得到的效果如下:

可以看到,只是將全部表格文本提取出來,但實際上第一個表格又細(xì)分為兩個表,所以需要我們進(jìn)一步修改,將這張表再次拆分!例如提取上半部分代碼如下:

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購買銀行理財產(chǎn)品的進(jìn)展公告.PDF')
ps = pdf.pages
pg = ps[4]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df2 = df1.iloc[2:,:]
df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"})
df2 = df2.loc[3:,:]
df1 = df1.loc[:1,:]
with pd.ExcelWriter('公司影響.xlsx') as i:
    df1.to_excel(i,sheet_name='資產(chǎn)', index=False, header=True) #放入資產(chǎn)數(shù)據(jù)
    df2.to_excel(i,sheet_name='營業(yè)',index=False, header=True) #放入營業(yè)數(shù)據(jù)

這段代碼在簡單型表格提取的基礎(chǔ)上進(jìn)行了修改,第十四行代碼的作用就是提取另外一個表頭的信息,并將他賦值給df2,而后對df2進(jìn)行重命名操作(用到rename函數(shù))。

打印df2可以看出columns列名和第一行信息重復(fù)了,因此我們需要重復(fù)剛剛的步驟,利用loc()函數(shù)切割數(shù)據(jù)框。

注意,我們這里用了罕見的pandas.Excelwriter函數(shù)套for循環(huán),這個是為了避免直接寫入導(dǎo)致的最后數(shù)據(jù)覆蓋原數(shù)據(jù),感興趣可以嘗試一下不用withopen這種方法后結(jié)果。最終得到的效果如下:

可以看到,現(xiàn)在這個表格就被放在兩個sheet中單獨展示,當(dāng)然用于對比放在一張表中也是可以的

說到底復(fù)雜型表格的主觀性是非常大的,需要根據(jù)不同情況進(jìn)行不同處理,想寫出一個一勞永逸的辦法是比較困難的!

三、圖片型表格提取

最后也是最難處理的就是圖片型表格,經(jīng)常有人會問如何提取圖片型PDF中的表格/文本等信息。

其實本質(zhì)上就是提取圖片,之后如何對圖片進(jìn)一步處理提取信息就與Python提取PDF表格這個主題沒有太大關(guān)系了!

這里我們也簡單進(jìn)行介紹,也就是先提取圖片再進(jìn)行OCR識別提取表格,在Python中可以使用Tesseract庫,首先需要pip安裝

pip install pytesseract

在Python中安裝完這個庫之后我們需要安裝exe文件以在后面代碼用到。

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下載安裝完即可,注意目前如果按照正常步驟安裝的話是不會識別中文的,所以需要安裝簡體中文語言包,下載地址為https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata,將其放到Tesseract-OCR的tessdata目錄下即可。

接下來我們使用一個簡單的圖片型pdf如下:

第一步,提取圖片,這里使用在GUI辦公自動化系列中的圖片提取軟件來提取PDF中的圖片,得到如下圖片:

接著執(zhí)行下方代碼識別圖片內(nèi)容

import pytesseract
from PIL import Image
import pandas as pd
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
tiqu = pytesseract.image_to_string(Image.open('圖片型.jpg'))
print(tiqu)
tiqu = tiqu.split('\n')
while '' in tiqu:    #不能使用for
  tiqu.remove('')
  first = tiqu[:6]
  second = tiqu[6:12]
  third =  tiqu[12:]
  df = pd.DataFrame()
  df[first[0]] = first[1:]
  df[second[0]] = second[1:]
  df[third[0]] = third[1:]
#df.to_excel('圖片型表格.xlsx')  #轉(zhuǎn)為xlsx文件

我們的思路是用Tesseract-OCR來解析圖片,得到一個字符串,接著對字符串運用split函數(shù),把字符串變成列表同時刪除\n。

接著可以發(fā)現(xiàn)我們的列表里還存在空格,這時我們用while循環(huán)來刪除這些空字符,注意,這里不能用for循環(huán),因為每次刪除一個,列表里的元素就會前進(jìn)一個,這樣會刪不完全。最后就是用pandas把這些變成數(shù)據(jù)框形式。最終得到的效果如下:

可以看到,該圖片型表格內(nèi)容被完美解析與處理!當(dāng)然能輕松搞定的原因也與這個表格足夠簡單有關(guān),在真實場景中的圖片可能會有更復(fù)雜的干擾因素,而這就需要大家在處理的同時自行找到一個最合適的辦法!

以上就是用Python提取PDF表格的方法的詳細(xì)內(nèi)容,更多關(guān)于Python提取PDF表格的資料請關(guān)注腳本之家其它相關(guān)文章!

您可能感興趣的文章:
  • Python 用三行代碼提取PDF表格數(shù)據(jù)
  • Python讀取pdf表格寫入excel的方法
  • python實現(xiàn)PDF中表格轉(zhuǎn)化為Excel的方法
  • 基于Python快速處理PDF表格數(shù)據(jù)
  • python 三種方法提取pdf中的圖片
  • python從PDF中提取數(shù)據(jù)的示例
  • python如何提取英語pdf內(nèi)容并翻譯
  • Python提取PDF內(nèi)容的方法(文本、圖像、線條等)
  • python基于pdfminer庫提取pdf文字代碼實例

標(biāo)簽:江蘇 湖州 畢節(jié) 呼和浩特 駐馬店 中山 衡水 股票

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《用Python提取PDF表格的方法》,本文關(guān)鍵詞  用,Python,提取,PDF,表格,的,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《用Python提取PDF表格的方法》相關(guān)的同類信息!
  • 本頁收集關(guān)于用Python提取PDF表格的方法的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    日韩国产欧美一区| 少妇精品无码一区二区免费视频| 一区二区免费电影| 91中文字幕在线观看| 久久国产天堂福利天堂| 亚洲成人精品av| 日韩欧美国产视频| 国产精品欧美一区二区三区| 国产一区91精品张津瑜| 丰满少妇高潮在线观看| 国产高清中文字幕| 国产三级精品三级观看| 国产吃瓜黑料一区二区| 日日碰狠狠躁久久躁婷婷| 亚洲欧美久久234| 不卡视频一区| 国产成人精品一区二区三区| 久久亚洲一区二区三区四区五区高| 欧美一二区视频| 欧美日韩国产一区中文午夜| 亚洲国产精品成人久久综合一区| 国产高清亚洲一区| 肉丝袜脚交视频一区二区| 91在线视频国产| 97超碰人人干| 欧美视频一区二区在线| 亚洲观看黄色网| 在线观看免费av网址| 日韩欧美视频网站| 91精品国产吴梦梦| 色播亚洲视频在线观看| 国产精品久久亚洲7777| 国产日韩换脸av一区在线观看| 久久久噜久噜久久综合| 久久久极品av| 国产亚洲欧美aaaa| 亚洲国产欧美在线成人app| 欧美日韩国产成人在线91| 精品久久久久人成| 一区二区三区欧美激情| 中文字幕高清一区| 久久久综合精品| av在线不卡网| 国产精品中文欧美| 国产一区视频导航| 久久爱www久久做| 日本va欧美va欧美va精品| 亚洲毛片在线播放| 国产高潮在线观看| 国产精品毛片久久久久久久av| 一级特黄免费视频| 国产无遮挡又黄又爽又色视频| 日本熟妇乱子伦xxxx| 免费在线观看黄视频| 麻豆精品国产免费| 国产探花视频在线| 999福利视频| 日本裸体美女视频| 久久成人小视频| 欧美肥妇bbwbbw| 黄色香蕉视频在线观看| 日本不卡一二区| 国产av 一区二区三区| 国产精品免费人成网站酒店| 欧美一级片在线视频| www欧美com| 欧美黑人性猛交xxx| 人妻少妇精品一区二区三区| 男人操女人的视频网站| 免费一级片视频| 精品少妇一二三区| 亚洲精品国产精品乱码| 丁香六月婷婷综合| 中文字幕欧美人妻精品一区蜜臀| 中文字幕av资源| 国产美女自慰在线观看| 亚洲成人精品女人久久久| 成人午夜精品福利免费| 久久国产直播| 麻豆国产精品一区二区三区| 卡一卡二国产精品| 国产精品综合在线视频| a在线欧美一区| 久久久精品一品道一区| 国产精品久久久久影院亚瑟| 亚洲天堂网中文字| 亚洲 欧美综合在线网络| 欧美性精品220| 欧美色窝79yyyycom| 91精品国产入口在线| 亚洲精品一区二区精华| 亚洲视频精品在线| 久久中文字幕国产| 77777亚洲午夜久久多人| 国产精品视频一| 国产高清一区视频| 日本成人三级| 成人国产一区二区三区| 干日本少妇首页| 999久久久精品视频| 中文字幕人妻一区二区三区| 国产亚洲精品熟女国产成人| 九九免费精品视频| 亚洲中文无码av在线| 亚洲精品免费在线观看视频| 日本不卡免费在线视频| 99久久国产免费看| 欧美经典一区二区| 亚洲成av人影院| 91精品国产一区二区三区蜜臀| 亚洲国产小视频在线观看| 在线精品国产成人综合| 97香蕉久久超级碰碰高清版| 成人精品一区二区三区电影黑人| 久久婷婷国产综合尤物精品| 欧美这里只有精品| 嫩草视频免费在线观看| 男人舔女人下部高潮全视频| 黄色在线观看免费| 97精品人妻一区二区三区| 日韩中文字幕不卡| 99热在这里有精品免费| 一卡二卡三卡日韩欧美| 6080亚洲精品一区二区| 在线电影av不卡网址| 2019中文在线观看| 国产女人水真多18毛片18精品 | 久久久久久久电影一区| 91久久嫩草影院一区二区| 日韩一区二区电影在线观看| 黄色免费视频大全| 视频免费在线观看| 精品无码人妻一区二区三| 国产丝袜在线视频| 国产精一品亚洲二区在线视频| 中文字幕亚洲一区二区va在线| 在线观看一区二区精品视频| 亚洲偷欧美偷国内偷| 2018中文字幕一区二区三区| 狠狠色狠狠色综合人人| 欧美视频在线观看网站| 久久久午夜精品福利内容| 国产大片中文字幕| 噜噜噜久久,亚洲精品国产品| 成人午夜看片网址| 亚洲成av人在线观看| 亚洲精品美女网站| 欧洲精品在线视频| 日本高清不卡一区二区三| 成人黄色片视频| 国产免费一区二区三区网站免费| 亚洲成人av网址| 国产美女久久久久| 亚洲综合999| 亚洲国产精品一区二区久| 性欧美激情精品| 免费日韩电影在线观看| 欧美精品成人网| 熟女少妇内射日韩亚洲| 97成人在线观看| 国产成人精品三级| 精品久久久久久亚洲国产300 | 男人操女人逼免费视频| 久久精品老司机| 中文字幕制服诱惑| 粉嫩在线一区二区三区视频| 午夜久久福利影院| 亚洲三级av在线| 国产一区二区在线免费| 热久久最新地址| www.超碰97| 中文av免费观看| av亚洲精华国产精华精| 欧洲中文字幕精品| 欧美人成在线视频| 欧美一区免费视频| 国产在线视频三区| 中文字幕精品视频在线观看| 国产一区二区三区日韩| 精品久久久久久| 久久九九全国免费精品观看| 国产精品久久波多野结衣| 欧美激情精品久久久久久小说| 波多野结衣喷潮| 久久久夜精品| 亚洲美女区一区| 亚洲男人天堂古典| 999热视频在线观看| 亚洲成熟丰满熟妇高潮xxxxx| 永久免费看mv网站入口| 午夜视频福利在线观看| 日韩一区在线免费观看| 国产偷亚洲偷欧美偷精品| 91精品综合视频| 欧美一级片中文字幕| 青青草原在线免费观看| 美女性感视频久久| 欧美日韩免费区域视频在线观看| 日韩中文字幕网| 蜜桃导航-精品导航| 亚洲国产日韩在线一区| 91成人在线免费| 国产欧美在线观看一区| 亚洲国产精品成人va在线观看| 成人黄色免费网站在线观看| 青青青在线播放| 日韩精品在线免费看| 国产成人精品免费一区二区| 欧美日韩精品欧美日韩精品| 青草成人免费视频| 欧美极品欧美精品欧美| 久久国产一级片| 国产成人啪免费观看软件| 欧美精品电影在线播放| 国产狼人综合免费视频| 久草综合在线观看| 亚洲s码欧洲m码国产av| 成人激情免费电影网址| 日韩一级完整毛片| 亚洲在线观看视频| 手机在线国产视频| 亚洲天堂中文网| 中文字幕一区二区三区在线播放| 国产亚洲精品综合一区91| 日本视频一区在线观看| 少妇久久久久久久久久| 青娱乐精品视频在线| 欧美综合一区二区| 国产成人+综合亚洲+天堂| 亚洲精品无码久久久久久| 国产成人精品网| 国产婷婷色一区二区三区| 亚洲视频一区二区三区| 日本不卡一区二区三区在线观看 | 国产精品第56页| 99久久精品久久久久久清纯| 日韩电影大全免费观看2023年上| 国产一区二区三区色淫影院| 亚洲第九十七页| 美女在线一区二区| 日韩欧美一卡二卡| 国产伦理一区二区三区| www.免费av| 人人精品人人爱| 91麻豆精品国产91久久久| 97超碰最新| 欧美一区二区免费在线观看| 久久夜色精品| 欧美乱妇15p| 99国产超薄肉色丝袜交足的后果| 五月天丁香社区| 日日欢夜夜爽一区| 91精品欧美综合在线观看最新| 97免费资源站| 成都免费高清电影| 国产一区二区三区不卡在线观看| 精品久久一区二区三区| 美国av一区二区三区| 成人18视频免费69| 99在线精品免费| 一本一道久久a久久精品逆3p| 一区二区三区四区国产| 亚洲综合网在线| 久久在线观看免费| www.99久久热国产日韩欧美.com| 91午夜在线观看| 精品一区二区无码| 亚洲午夜三级在线| 国产精品劲爆视频| 国产人成视频在线观看| 蜜桃一区二区三区在线观看| 欧美成人精品福利| 五月婷婷一区| 国产成人精品片| 亚洲激情校园春色| 国产精品夫妻激情| 丰满岳乱妇一区二区| 蜜桃av一区二区| 亚洲精美色品网站| av中文字幕av| 中文字幕欧美人妻精品| 色综合咪咪久久| 成人性色av| 视频国产一区二区| 国产欧美日韩在线看| 午夜精品久久久久久99热| 国产一级片自拍| 日本在线不卡视频| 亚洲乱码一区av黑人高潮| 小泽玛利亚av在线| 国产精品老熟女视频一区二区| 在线亚洲高清视频| 久久久久久久久久久久久久一区| 特级片在线观看| 亚洲精品久久久蜜桃| 国产精品自拍小视频| a级片在线观看| 91老司机福利 在线| 欧美黄色成人网| 一级片黄色免费| 国产一区二区影院| 最新中文字幕亚洲| 老头吃奶性行交视频| 日韩和的一区二区| 亚洲人成毛片在线播放| 国产日韩一区二区在线观看| 天天色棕合合合合合合合| 亚洲成人中文字幕| 国产一区二区三区乱码| 99热这里只有精品1| 欧美一二三区在线观看| 300部国产真实乱| www.午夜激情| 欧美tickling挠脚心丨vk| 国产欧美综合一区| 国产乱码精品一区二区三区精东| 91精品欧美综合在线观看最新 | 天天看天天摸天天操| 一区在线观看视频| 亚洲a∨日韩av高清在线观看| 亚洲一级二级片| 亚洲大尺度视频在线观看| 国产乱人伦精品一区二区| 日本少妇毛茸茸高潮| 色综合色狠狠综合色| 日韩亚洲视频| 96日本xxxxxⅹxxx17| 精品国产亚洲在线| 国产视频九色蝌蚪| 日本欧美在线看| 久久久av电影| 亚洲成a人无码| 久久久99久久精品欧美| 国产精品女主播视频| 三上悠亚作品在线观看| 亚洲高清在线视频| 欧美成人综合一区| 一区二区 亚洲| 亚洲国产日韩欧美在线动漫| 99视频精品免费| 国产黄色成人av| 97视频色精品| av在线播放中文字幕| 一区二区三区日韩在线观看| 国产视频一区二区不卡| 波多野结衣一二区| 欧美成人video| 无码人妻丰满熟妇区毛片| 国产综合色视频| 久久久久久久久爱| 亚洲自拍偷拍图| 亚洲另类春色国产| 国产日韩在线一区二区三区| 亚洲午夜无码久久久久| 亚洲高清一二三区| 午夜在线观看av| 97久久精品人人做人人爽 | 日本不卡一二区| 91久久精品一区二区二区| 精品国产一区二区三区在线| 天天操天天操天天操| 久久偷看各类女兵18女厕嘘嘘| 三叶草欧洲码在线| 亚洲精品国产精华液| 秋霞毛片久久久久久久久| 国产福利资源在线| 日韩在线播放av| 亚洲一区二区三区蜜桃| 亚洲无线码一区二区三区| 丝袜美腿玉足3d专区一区| 亚洲精品综合网| 久久综合久久88| 国产黄色大片免费看| 欧美日韩在线免费| 日韩精品一区二区在线视频| 久久99久久久久| 国产成人精品国内自产拍免费看| 成人免费毛片东京热| 欧美日韩国产a| 欧美精品无码一区二区三区| 97久久超碰国产精品| 999热视频| 国产成人麻豆精品午夜在线| 日韩视频―中文字幕| 久久久久亚洲av无码专区桃色| 亚洲成人高清在线| www.欧美黄色| 国产精品伊人色| 91九色蝌蚪国产| 91一区二区视频| 久久精品人人爽| 久久爱一区二区| 678五月天丁香亚洲综合网| 一级黄色香蕉视频| 国产色91在线| 日韩久久久久久久| 秋霞成人午夜伦在线观看| 国产精品久久久999| 免费看污视频的网站| 亚洲人成网站999久久久综合| 搡老熟女老女人一区二区| 黑人巨大精品欧美一区二区| av网站大全免费| 97超碰欧美中文字幕| 精品国产一区二区三区四区精华| 天天操天天操天天| 国产精品久久久久福利| 中文字幕日本人妻久久久免费| 日韩小视频在线观看| 性色av无码久久一区二区三区|