日韩av片电影专区,日本在线不卡视频,伊人久久亚洲

match()函數(shù)的使用。以及從文本中提取數(shù)據(jù)的方法。在學(xué)習(xí)re模塊的相關(guān)函數(shù)前應(yīng)了解正則表達(dá)式的特殊字符

準(zhǔn)備一個(gè)要爬取的文本文檔：

直接從某個(gè)網(wǎng)頁拷貝一份代碼，粘貼在一個(gè)txt文件里，以供學(xué)習(xí)。

方法很簡單，比如打開百度視頻的熱門電影網(wǎng)頁，右鍵點(diǎn)擊查看源代碼，然后復(fù)制，粘貼到一個(gè)txt文件里，保存到工作目錄下。

有4000多行。

            
re.match(pattern, string, flags=0)

①pattern，是正則表達(dá)式。string，被檢驗(yàn)的字符串。

②flags是可選參數(shù)，此標(biāo)記是用來對(duì)patten的補(bǔ)充。例如：re.S，可以讓正則表達(dá)式中的點(diǎn)匹配換行符\n。(如圖片中，可以看幫助文檔，查看有哪些標(biāo)記）

③ match()函數(shù)由左向右檢驗(yàn)string，若匹配到正則表達(dá)式，返回一個(gè)匹配對(duì)象，否則就返回None.

④re.match() 匹配字符串的開始位置，而不匹配每行開始。

----所以才將網(wǎng)頁的每行放入列表，以供match函數(shù)對(duì)每行操作。

比如要在文檔中，提取電影的網(wǎng)址，和電影名。

①復(fù)制那行文本作為表達(dá)式，

②將要提取的網(wǎng)址和和電影名替換為(.*)，這只是暫時(shí)的，可以在接下來的代碼中調(diào)整。

讀取文本：

①用with open（）語句讀取；

②用readlines，一次性讀完，返回一個(gè)列表，元素是文本的每一行。

            
with open('aa.txt','r',encoding='utf-8') as f:
  lines=f.readlines()

①判斷每行是否返回了匹配的對(duì)象，

②接收匹配對(duì)象，并用groups()提取表達(dá)式內(nèi)括號(hào)的內(nèi)容；

            
for line in lines:
  if re.match(pat,line):   #判斷過濾掉返回None的行，
    ret=re.match(pat,line) #接收匹配對(duì)象
    print(ret.groups())

發(fā)現(xiàn)有不符合的行，稍加修改，過濾掉不符合的行：

因?yàn)椋缓系男卸加锌崭瘢ɑ蚱渌址？梢越o第二子組的點(diǎn) . 換成非[^ ]；非空格的任意字符，意思就是不要有空格的。

用f-string格式化對(duì)輸出的文本稍加修飾，使用group(1)，group(2);

可以將這段代碼封裝為一個(gè)函數(shù)。爬取百度視頻的其他欄目。

測(cè)試: 百度視頻的電影，電視劇，和動(dòng)漫等欄目，網(wǎng)頁上的格式基本相同，所以用上面的函數(shù)直接套用。

打開百度視頻的動(dòng)漫，復(fù)制源代碼，存為bb.txt。

同樣可以爬取網(wǎng)址和視頻名稱。

以上僅是練習(xí)match()函數(shù)的例子。

以上就是關(guān)于python如何用match()函數(shù)爬數(shù)據(jù)的全部內(nèi)容，感謝大家的閱讀和對(duì)腳本之家的支持。

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系： 360901061

您的支持是博主寫作最大的動(dòng)力，如果您喜歡我的文章，感覺我的文章對(duì)您有幫助，請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點(diǎn)擊下面給點(diǎn)支持吧，站長非常感激您！手機(jī)微信長按不能支付解決辦法：請(qǐng)將微信支付二維碼保存到相冊(cè)，切換到微信，然后點(diǎn)擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】元

2元

5元

10元

20元

自定義

日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

python用match()函數(shù)爬數(shù)據(jù)方法詳解