日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python爬蟲初接觸（六）

系統 2019-09-27 17:53:05 1688 0

這篇博客做一個爬蟲的實例

今天剛看到一個新聞，在7月26日上映的《哪吒之魔童降世》，密鑰第二次延期至10月26日。
截止至9月17日，《哪吒之魔童降世》票房已超49億票房，在豆瓣上對該電影的評價有好有壞。說實話，博主看了這個電影真的覺得蠻不錯的，因此把短評中的差評爬取下來，看下差評包括哪些方面。

一、BeautifulSoup

首先需要了解下差評文字內容在哪些標簽下：

進入豆瓣該電影短評界面，檢查元素：

可以看出，每一條評論都在一個


          
            標簽下，具體的文字內容，在
            
              
              
            
            標簽下
            
              
              
            
            標簽下
            
              
              
            
            標簽里。
            
            
            
              于是就有了爬取的思路：
            
            
              
                找到所有的
                
                  class=short
                
                的span標簽
              
              
                爬取文字內容
              
              
                翻頁
                

                
                  
                
              
            
            
              （一）導入需要用到的模塊與包
            
                          
                import requests
from bs4 import BeautifulSoup
import time

              
            
            
              （二）獲取差評內容
              

               先爬取一頁看下效果
            
                          
                base_url = 'https://movie.douban.com/subject/26794435/comments?start=0&limit=20&sort=new_score&status=P&percent_type=l'

def get_one_pageComments(html):
    soup = BeautifulSoup(html.content, 'lxml')
    # 可以在這里print下html.content看是否需要添加ua或者cookie爬取
    commentsList = soup.find_all('span',class_='short')
    pageComments = ""
    for commentTag in commentsList:
            pageComments += commentTag.text
    print(pageComments)


html = requests.get(url)


get_one_pageComments(html)

              
            
            
              
                
              
              

               與原網頁對比下：
              

              
                
              
              

               說明成功爬取到了差評內容
            
            
              （三）翻頁
              

               接下來進行翻頁處理，先對比下前三頁的url：
              

              
                
              
              

               發現每翻一頁
              
                start
              
              的值就加20。翻頁功能就可以實現了
            
                          
                base_url = 'https://movie.douban.com/subject/26794435/comments?start={}&limit=20&sort=new_score&status=P&percent_type=l'
for x in range(0, 81, 20):
    url = base_url.format(x)
    print(url)

              
            
            
              
                
              
            
            
              綜合以上所述，整個流程的代碼實現就完成了：
            
                          
                base_url = 'https://movie.douban.com/subject/26794435/comments?start={}&limit=20&sort=new_score&status=P&percent_type=l'

def get_one_pageComments(html):
    soup = BeautifulSoup(html.content, 'lxml')
    commentsList = soup.find_all('span',class_='short')
    pageComments = ""
    for commentTag in commentsList:
            pageComments += commentTag.text
    print(pageComments)

for x in range(0,81, 20):
# 爬取前4頁
    url = base_url.format(x)
    html = requests.get(url)
    get_one_pageComments(html)
    time.sleep(1)

              
            
            
              
                time.sleep
              
              是避免被識別出在爬取的一個措施。
            
            
              
                
              
              

               這樣，就完成了對該電影差評的爬取。
            
            
              二、xpath
            
            
              其實絕大部分都是一樣的，不同之處在于如何定位到差評文本內容。
              

              
                
              
            
            
              由于每條差評都在一個
              
            

            
              中，而所有的
              
                
                
              
              都在
              
                
                
              
              。
              

               因此，首先要定位到
              
                
                
              
              ，其次定位
              
                
                
              
              ，然后定位
              
                
                
              
              ，接著定位
              
                
                
              
              ，最后定位
              
                text()
              
              
              
              
                思路清晰了，接下來就是代碼的實現了：
              
                              
                  import requests
from lxml import etree

def get_text(url):
    resp = requests.get(url).content.decode('utf-8')
    html = etree.HTML(resp)
    divs = html.xpath('//div[@class="mod-bd"]/div')
    # print(divs)
    for div in divs:
        pl = div.xpath('//div[@class="comment"]/p/span/text()')
        print(pl)

base_url = 'https://movie.douban.com/subject/26794435/comments?start={}&limit=20&sort=new_score&status=P&percent_type=l'
for x in range(0, 81, 20):
    url = base_url.format(x)
    get_text(url)

                
              
              
                爬取后的結果：
                

                
                  
                
              
              
                三、正則表達式
              
              
                用正則表達式去匹配一定要記住下面三個非常非常常用且作用十分的匹配式：
              
              
                
                  
                    .+?
                  
                   代表所有字符
                
                
                  
                    re.VERBOSE
                  
                   代表正則表達式的注釋
                
                
                  
                    re.DOTALL
                  
                   代表.可以匹配所有字符，包括換行符
                
              
              
                
                  
                
                

                 我們要爬取所有的差評內容，即要找到所有的
                
              

              
                ：
                
                  
                    

                     然后去定位
                    
                      
                      
                    
                    ：
                    
                      
                        
                      
                    
                    
                      
                        
                      
                    
                    
                      雖然分別用BeautifulSoup、Xpath、正則表達式基本實現了對差評內容的爬取，但是不足之處在于沒有對爬取到的str進行保存，是因為博主在保存時總是報錯。。還沒有找到合適的解決辦法，后續會進行完善。


 
 	
	
	
	
	
			
	
		
			
				
					更多文章、技術交流、商務合作、聯系博主
					
						微信掃碼或搜索：z360901061
					
					
						
					
					
						微信掃一掃加我為好友
						
							QQ號聯系：  360901061
						
					
				
			
		
	
	
		
			
				
					您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。
					
						【本文對您有幫助就好】元
					
					
						
					
					
						
							 2元
						
						
							 5元
						
						
							 10元
						
						
							 20元
						
						
							 自定義





	
	您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧，站長會非常 感謝您的哦！！！
	
		
		 
		
	
 


	 python之列表推導式 Python實現字符串反轉的幾種方法 




	
		
					
		發表我的評論
		
	
	
		
			
			
			
				
				
				表情
			
		
	


	
		最新評論 總共0條評論


		
		


	
		
			站內搜索
		
		
			
					
						 
						
					
				
		
	
	
	
	
	
		
			加入交流
		
		
			1. 手機QQ掃左側二維碼2. 搜Q群：542395358 3. 點擊
				
			1. 手機QQ掃左側二維碼2. 搜Q群：922215567 3. 點擊
				
			1.手機微信掃左側二維碼
				2. 微信中搜索：上海加盾信息科技有限公司
			1.手機微信掃左側二維碼
				2. 微信搜索小程序：張軍博客
				
			1.手機微信掃左側二維碼
				2. 微信搜索小程序：上海加盾信息科技有限公司
			關注企業釘釘
				
			關注企業微信
				
			微信掃一掃添加張軍網站微信群
				
			微信掃一掃加我為好友
				
		
	
	
		
			猜你喜歡
		
		
			  
				 RedisUtil工具類 在Redis中數據都是以key-value的形式存儲的，key規定只能是string類型的，所以我們 
			
  
				 緩存技術相關 redis-server.exe 服務器啟動命令
redis-cli.exe 命令行客戶端
re 
			
  
				 定義一個時間類 Time，它能表示 24 小時制的時、分、秒，具體要求如下 (20 分) 定義一個時間類 Time，它能表示 24 小時制的時、分、秒，具體要求如下：
(1) 
			
  
				 java正則表達式 過濾特殊字符的正則表達式 java正則表達式 過濾特殊字符的正則表達式 
			
  
				 安裝DB2 安裝DB2 
			
  
				 Linux擴容分區 Linux擴容分區 
			
  
				 輸出相關路徑 輸出相關路徑 
			
  
				 輸出當前目錄下所有文件名到指定文件中 輸出當前目錄下所有文件名到指定文件中 
			
  
				 刪除命令參數說明 刪除命令參數說明 
			
  
				 刪除前3天、前30天、前7天的文件 刪除前3天、前30天、前7天的文件 
			
  
				 多線程工作處理 多線程工作處理、多線程工作處理簡單實現類、多線程工作處理接口 
			
  
				 壓縮jsp,html中的代碼，去掉所有空白符、換行符 壓縮jsp,html中的代碼，去掉所有空白符、換行符 
			
  
				 壓縮、解壓縮工具類 壓縮、解壓縮工具類 
			
  
				 二維碼工具類 二維碼工具類、支付二維碼 
			
  
				 緩存工具類 緩存名創建后即使移除緩存，也不會重新創建 緩存工具類 緩存名創建后即使移除緩存，也不會重新創建 
			
  
				 json工具類 json工具類 
			
  
				 常量資源文件工具類 常量資源文件工具類 
			
  
				 資源文件工具類 資源文件工具類 
			
  
				 處理查詢結果后分頁排序類 處理查詢結果后分頁排序類 
			
  
				 html解析工具類、html表格解析解析工具類 html解析工具類、爬蟲、html表格解析解析工具類、webClient工廠 
			
		
	
	
		
			標簽云
		
		
			金融業務 (4)教育資料 (10)Java (901)C++ (86)C# (215)Python (9022)Oracle (911)SqlServer (681)MySql (600)DB2 (33)PostgreSql (23)Tomcat (825)Weblogic (12)Windows (214)Linux (647)VMware (32)Ubuntu (194)ASP.NET (198)Android (681)IOS (75)Hive (45)Hadoop (50)Hbase (9)Spark (4)redis (78)PHP (145)Jquery (174)Javascript (168)NoSQL (6)CSS (127)資料下載 (25)交易系統 (9)java工具類 (32)其它 (7)秕處理 (4)		
	
	
	
		
			友情鏈接
申請友鏈
		
		
			上海加盾信息科技有限公司
股票002162悅心健康資金分析
張軍博客
張軍博客-網址導航
張軍java工具類
iBAAO壹寶頭條
快手號出售
全球日報
張軍博客-SpringBoot入門
		
	
	
		
			demo案例
申請友鏈
		
		
			XXX環保設備有限公司
			市突發預警平臺實時監控
		
	
	
		
			51鏈網站
		
		
			51鏈首頁
			51鏈注冊頁
			廣告出售頁
			友鏈出租頁
			軟文出售頁
			友鏈交換頁