日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python利用BeautifulSoup解析Html的方法示例

系統 2373 0

介紹

Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數據,因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程序。

Beautiful Soup自動將輸入文檔轉換為Unicode編碼,輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式,除非文檔沒有指定一個編碼方式,這時,Beautiful Soup就不能自動識別編碼方式了。然后,你僅僅需要說明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器,為用戶靈活地提供不同的解析策略或強勁的速度。

本文將給大家詳細介紹關于Python利用BeautifulSoup解析Html的方法,下面話不多說了,來一起看看詳細的介紹:

1. 安裝Beautifulsoup4

            
pip install beautifulsoup4
pip install lxml
pip install html5lib
          

lxml 和 html5lib 是解析器

2. html?

                        
              The Website Title
            
            

Download my Python book from my website .

Learn Python the easy way!

By Al Sweigart

上面的html保存html文件

3.開始解析

            
import bs4
 
exampleFile = open('example.html')
exampleSoup = bs4.BeautifulSoup(exampleFile.read(),'html5lib')
elems = exampleSoup.select('#author')
type(elems)
print (elems[0].getText())
          

結果輸出 Al Sweigart

BeautifulSoup 使用select 方法尋找元素,類似jquery的css選擇器

  • soup.select(‘div') ―――――――?C所有為
    的元素
  • soup.select(‘#author') ―――――?Cid為author的元素
  • soup.select(‘.notice') ――――――class 為notice的元素

參考《Python 編程快速上手―?C讓繁瑣工作自動化》

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦?。?!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 页游| 永城市| 元朗区| 榆中县| 忻城县| 图片| 承德县| 长治市| 阿鲁科尔沁旗| 淮安市| 双鸭山市| 武义县| 平乡县| 苗栗市| 岗巴县| 太康县| 金堂县| 如东县| 大渡口区| 贵溪市| 砚山县| 邳州市| 渝北区| 磴口县| 彭泽县| 南京市| 龙井市| 宜章县| 元谋县| 泽库县| 天津市| 关岭| 阿拉善右旗| 乐昌市| 枣阳市| 庆云县| 湘潭县| 靖安县| 无为县| 昭平县| 宜城市|