日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python爬蟲之爬取小說

系統 2278 0

(^_?)☆本喵的放松方式是看小說,而且類型不限,屬于偏好成謎的那一種。所以從爬取完天氣預報開始,我就開始想著爬取小說,編寫了一個還不算完善的爬取小說程序,期待你們的完善。

小說來源:?

努努書坊:https://www.kanunu8.com/?

山海經:https://www.kanunu8.com/book3/7766/index.html

Python爬蟲之爬取小說_第1張圖片

解析頁面源代碼:?

Python爬蟲之爬取小說_第2張圖片

在頁面源代碼中我們可以看到?url+1為每章節的內容鏈接

  • 小說名字:r' (.+) '
  • 章節目錄:r' (.+) '
  • 小說內容:r'

    (.+)

    '

爬取代碼:?

            
              import re
import requests

url="https://www.kanunu8.com/book3/7766/"
txt=requests.get(url).content.decode("gbk")

m1=re.compile(r'
              
                
                  (.+)
                
              
              ')
print(m1.findall(txt)[0].center(23,'='))

m2=re.compile(r'
              
                (.+)
              
              ')
raw=m2.findall(txt)

SHJ=[(i[2],url+i[1]) for i in raw]	#i[2]為每一章節標題,url+i[1]為每章節的內容鏈接
print("小說目錄已加載完畢!")

m3=re.compile(r'
              

(.+)

',re.S) #每章節小說內容 m4=re.compile(r"
") #
小說內容中的符號 with open("山海經.txt","a") as f: for i in SHJ: print("開始下載--->",i[0]) t1=requests.get(i[1]).content.decode("gbk") #每章節小說內容獲取 nr=m3.findall(t1) #[0] nrl=m4.sub('',nr[0]) f.write(i[0]) f.write("\n") f.write(nrl) f.write("\n\n") print("下載完畢!")

執行結果:?

Python爬蟲之爬取小說_第3張圖片

?

?


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!??!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 延津县| 台东县| 繁昌县| 南丹县| 昌乐县| 延川县| 太仓市| 辉县市| 淳安县| 青阳县| 宜都市| 建阳市| 台东县| 宣恩县| 商丘市| 开化县| 宾川县| 冷水江市| 民权县| 商南县| 惠安县| 天峨县| 囊谦县| 清流县| 民权县| 沙坪坝区| 逊克县| 德庆县| 大竹县| 富源县| 南皮县| 崇仁县| 南丹县| 桑植县| 阳山县| 上虞市| 夏津县| 安化县| 唐山市| 无极县| 五莲县|