點擊上方“ 何 俊林 ”,馬上關注,每天早上 8:50 準時推送
真愛,請置頂或星標
大家好,希望各位能懷著正直、嚴謹、專業的心態觀看這篇文章。ヾ(????)?"
接下來我們嘗試用 Python 抓取天貓內衣銷售數據,并分析得到中國女性普遍的罩杯數據、最受歡迎的內衣顏色是什么、評論的關鍵字。希望看完之后你能替你女朋友買上一件心怡的內衣。我們先看看分析得到的成果是怎樣的?(講的很詳細,推薦跟著敲一遍)
(買個內衣這么開心)
圖片看不清楚的話,可以把圖片單獨拉到另一個窗口。 這里是分析了一萬條數據得出的結論,可能會有誤差,但是還是希望單身的你們能找到 0.06% 那一批妹紙。下面我會詳細介紹怎么抓取天貓內衣銷售數據,存儲、分析、展示。
-
研究天貓網站
-
抓取天貓評論數據
-
存儲、分析數據
-
可視化
研究天貓網站
我們隨意進入一個商品的購買界面(能看到評論的那個界面),F12 開發者模式 -- Network 欄 -- 刷新下界面 -- 在如圖的位置搜索 list_ 會看到一個 list_detail_rate.htm?itemId= ….
如下圖:【單擊】這個url 能看到返回的是一個 Json 數據 ,檢查一下你會發現這串 Json 就是商品的評論數據 ['rateDetail']['rateList']
【雙擊】這個url 你會得到一個新界面,如圖
看一下這個信息
這里的路徑 就是獲取評論數據的 url了。這個 URL 有很多參數你可以分析一下每個值都是干嘛的。
itemId 對應的是商品id, sellerId ?對應的是店鋪id,currentPage 是當前頁。這里 sellerId ?可以填任意值,不影響數據的獲取。
抓取天貓評論數據
寫一個抓取天貓評論數據的方法。getCommentDetail
這里需要注意的是 jsonp128 這個值需要你自己看一下,你那邊跟我這個應該是不同的。
在上面的方法里有兩個變量,itemId 和 currentPage 這兩個值我們動態來控制,所以我們需要獲得 一批 商品id號 和 評論的最大頁數 用來遍歷。
寫個獲取商品評論最大頁數的方法 getLastPage
那現在怎么獲取 產品的id 列表呢?我們可以在天貓中搜索商品關鍵字 用開發者模式觀察
這里觀察一下這個頁面的元素分布,很容易就發現了 商品的id 信息,當然你可以想辦法確認一下。
現在就寫個 獲取商品id 的方法 getProductIdList
現在所有的基本要求都有了,是時候把他們組合起來。
在 main 方法中寫剩下的組裝部分
所有的代碼就這樣完成了,我現在把 common.py 的代碼,還有 tmallbra.py 的代碼都貼出來
上面需要注意,數據庫的配置。
存儲、分析數據
所有的代碼都有了,就差數據庫的建立了。我這里用的是 MySql 數據庫。
這里有兩個地方需要注意, comment 評論字段需要設置編碼格式為 utf8mb4 ?,因為可能有表情文字。還有表需要設置為 utf8 編碼,不然存不了中文。
建好了表,就可以完整執行代碼了。(這里的執行可能需要點時間,可以做成多線程的方式)。看一下執行完之后,數據庫有沒有數據。
數據是有了,但是有些我們多余的文字描述,我們可以稍微整理一下。
這里需要根據自己實際情況來修改。如果數據整理的差不多了,我們可以分析一下數據庫的信息。
(想知道是哪6位小姐姐買的 G ? ? ? (~ ̄▽ ̄)~ )
數據可視化
數據的展示,我用了是 mycharts 模塊,如果不了解的可以去學習一下http://pyecharts.org/#/zh-cn/prepare
這里我就不細說了,直接貼代碼看
這一章就到這里了,該知道的你也知道了,不該知道的你也知道了。
本文作者:躲貓貓的貓 ,原文鏈接: https://www.cnblogs.com/zhaww/p/9636383.html
?推薦閱讀
Python爬蟲小白入門-爬取披頭士樂隊歷年專輯封面-網易云音樂
python 利用opencv去除圖片水印
python面試題37道(附答案)看完面試不愁了
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
