日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python多進(jìn)程方式抓取基金網(wǎng)站內(nèi)容的方法分析

系統(tǒng) 1689 0

本文實(shí)例講述了Python多進(jìn)程方式抓取基金網(wǎng)站內(nèi)容的方法。分享給大家供大家參考,具體如下:

在前面這篇//www.jb51.net/article/162418.htm我們已經(jīng)簡(jiǎn)單了解了”python的多進(jìn)程”,現(xiàn)在我們需要把抓取基金網(wǎng)站(28頁)內(nèi)容寫成多進(jìn)程的方式。

因?yàn)檫M(jìn)程也不是越多越好,我們計(jì)劃分3個(gè)進(jìn)程執(zhí)行。意思就是 :把總共要抓取的28頁分成三部分。

怎么分呢?

            
# 初始range
r = range(1,29)
# 步長(zhǎng)
step = 10
myList = [r[x:x+step] for x in range(0,len(r),step)]
print(myList) # [range(1, 11), range(11, 21), range(21, 29)]


          

看上面代碼,我們就把 1~29 分成了三部分,list里三個(gè)range。

2、還記得我們抓取基金網(wǎng)站內(nèi)容的 getData() 函數(shù)?

            
def getData(start, end):
  for x in range(start, end+1):
    # 去第幾頁 輸入框
    tonum = driver.find_element_by_id("tonum")
    # 去第幾頁 提交按鈕
    jumpBtn = driver.find_element_by_id("btn_jump")
    tonum.clear() # 第x頁 輸入框
    tonum.send_keys(str(x)) # 去第x頁
    jumpBtn.click() # 點(diǎn)擊按鈕
    WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \
                    .find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \
                    .get_attribute("class").find("at") != -1)
    # 保存抓取到的html內(nèi)容
    # 保存到html目錄下
    with open("./htmls/{0}.txt".format(x),"wb") as f:
      f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8"))
      f.close()


          

函數(shù)是有2個(gè)參數(shù):一個(gè)開始頁碼,一個(gè)結(jié)束頁碼,也就是從第start頁,到第end頁。

這2個(gè)參數(shù)實(shí)際上也是 range

改造 getData() 函數(shù)如下(參數(shù)不同了):

            
# 循環(huán)抓取網(wǎng)頁內(nèi)容的函數(shù)
def getData(myrange):
  for x in myrange:
    # 去第幾頁 輸入框
    tonum = driver.find_element_by_id("tonum")
    # 去第幾頁 提交按鈕
    jumpBtn = driver.find_element_by_id("btn_jump")
    tonum.clear() # 第x頁 輸入框
    tonum.send_keys(str(x)) # 去第x頁
    jumpBtn.click() # 點(diǎn)擊按鈕
    WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \
                    .find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \
                    .get_attribute("class").find("at") != -1)
    # 保存抓取到的html內(nèi)容
    # 保存到html目錄下
    with open("./htmls/{0}.txt".format(x),"wb") as f:
      f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8"))
      f.close()


          

3、創(chuàng)建進(jìn)程,把 target 設(shè)置為上面的 getData()

            
# 初始range
r = range(1,int(total_page)+1)
# 步長(zhǎng)
step = 10
myList = [r[x:x+step] for x in range(0,len(r),step)] # 把頁面分段
# 創(chuàng)建進(jìn)程
processList = []
if __name__ == "__main__":
  for r in myList:
    p = Process(target=getData,args=(r,))
    processList.append(p)
  # 開始執(zhí)行進(jìn)程
  for p in processList:
    p.start()


          

這樣就有三個(gè)進(jìn)程分別抓取。

4、多進(jìn)程抓取基金網(wǎng)站多頁內(nèi)容完全代碼:

            
# coding: utf-8
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions
from multiprocessing import Process
driver = webdriver.PhantomJS(executable_path=r"你phantomjs的可執(zhí)行文件路徑")
# 請(qǐng)求一個(gè)網(wǎng)址
driver.get("http://fund.eastmoney.com/fund.html")
page_text = driver.find_element_by_id("pager").find_element_by_xpath("span[@class='nv']").text
total_page = ''.join(filter(str.isdigit,page_text)) # 得到總共有多少頁
# 循環(huán)抓取網(wǎng)頁內(nèi)容的函數(shù)
def getData(myrange):
  for x in myrange:
    # 去第幾頁 輸入框
    tonum = driver.find_element_by_id("tonum")
    # 去第幾頁 提交按鈕
    jumpBtn = driver.find_element_by_id("btn_jump")
    tonum.clear() # 第x頁 輸入框
    tonum.send_keys(str(x)) # 去第x頁
    jumpBtn.click() # 點(diǎn)擊按鈕
    WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \
                    .find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \
                    .get_attribute("class").find("at") != -1)
    # 保存抓取到的html內(nèi)容
    # 保存到html目錄下
    with open("./htmls/{0}.txt".format(x),"wb") as f:
      f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8"))
      f.close()
# 初始range
r = range(1,int(total_page)+1)
# 步長(zhǎng)
step = 10
myList = [r[x:x+step] for x in range(0,len(r),step)] # 把頁面分段
# 創(chuàng)建進(jìn)程
processList = []
if __name__ == "__main__":
  for r in myList:
    p = Process(target=getData,args=(r,))
    processList.append(p)
  # 開始執(zhí)行進(jìn)程
  for p in processList:
    p.start()


          

更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python進(jìn)程與線程操作技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》、《Python+MySQL數(shù)據(jù)庫(kù)程序設(shè)計(jì)入門教程》及《Python常見數(shù)據(jù)庫(kù)操作技巧匯總》

希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 金堂县| 武宁县| 镇宁| 南江县| 靖宇县| 乳源| 武强县| 海林市| 女性| 滦平县| 兴和县| 广河县| 钟祥市| 宁安市| 米脂县| 夏邑县| 凤城市| 蓬溪县| 濉溪县| 修文县| 江源县| 句容市| 阿坝县| 文水县| 宜阳县| 梧州市| 囊谦县| 喀喇沁旗| 扎赉特旗| 孟村| 朝阳市| 屏边| 鄂托克前旗| 南部县| 渭南市| 梁河县| 绵阳市| 常山县| 霸州市| 武夷山市| 建平县|