日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

用 Python 爬取電影,這些電影真的很不錯(cuò)

系統(tǒng) 1963 0

首先要分析一下電影天堂網(wǎng)站的首頁(yè)結(jié)構(gòu)。


在這里插入圖片描述

從上面的菜單欄中我們可以看到整個(gè)網(wǎng)站資源的總體分類(lèi)情況。剛剛好我們可以利用到它的這個(gè)分類(lèi),將每一個(gè)分類(lèi)地址作為爬蟲(chóng)的起點(diǎn)。

①解析首頁(yè)地址 提取分類(lèi)信息

          
            #解析首頁(yè)
def CrawIndexPage(starturl):
    print "正在爬取首頁(yè)"
    page = __getpage(starturl)
    if page=="error":
        return
    page = page.decode('gbk', 'ignore')
    tree = etree.HTML(page)
    Nodes = tree.xpath("http://div[@id='menu']//a")
    print "首頁(yè)解析出地址",len(Nodes),"條"
    for node in Nodes:
        CrawledURLs = []
        CrawledURLs.append(starturl)
        url=node.xpath("@href")[0]
        if re.match(r'/html/[A-Za-z0-9_/]+/index.html', url):
            if __isexit(host + url,CrawledURLs):
                pass
            else:
                try:
                    catalog = node.xpath("text()")[0].encode("utf-8")
                    newdir = "E:/電影資源/" + catalog
                    os.makedirs(newdir.decode("utf-8"))
                    print "創(chuàng)建分類(lèi)目錄成功------"+newdir
                    thread = myThread(host + url, newdir,CrawledURLs)
                    thread.start()
                except:
                    pass

          
        

在這個(gè)函數(shù)中,首先將網(wǎng)頁(yè)的源碼下載下來(lái),通過(guò)XPath解析出其中的菜單分類(lèi)信息。并創(chuàng)建相應(yīng)的文件目錄。有一個(gè)需要注意的地方就是編碼問(wèn)題,但是也是被這個(gè)編碼糾纏了好久,通過(guò)查看網(wǎng)頁(yè)的源代碼,我們可以發(fā)現(xiàn),網(wǎng)頁(yè)的編碼采用的是GB2312,這里通過(guò)XPath構(gòu)造Tree對(duì)象是需要對(duì)文本信息進(jìn)行解碼操作,將gb2312變成Unicode編碼,這樣DOM樹(shù)結(jié)構(gòu)才是正確的,要不然在后面解析的時(shí)候就會(huì)出現(xiàn)問(wèn)題。

②解析每個(gè)分類(lèi)的主頁(yè)

          
            # 解析分類(lèi)文件
def CrawListPage(indexurl,filedir,CrawledURLs):
    print "正在解析分類(lèi)主頁(yè)資源"
    print indexurl
    page = __getpage(indexurl)
    if page=="error":
        return
    CrawledURLs.append(indexurl)
    page = page.decode('gbk', 'ignore')
    tree = etree.HTML(page)
    Nodes = tree.xpath("http://div[@class='co_content8']//a")
    for node in Nodes:
        url=node.xpath("@href")[0]
        if re.match(r'/', url):
            # 非分頁(yè)地址 可以從中解析出視頻資源地址
            if __isexit(host + url,CrawledURLs):
                pass
            else:
                #文件命名是不能出現(xiàn)以下特殊符號(hào)
                filename=node.xpath("text()")[0].encode("utf-8").replace("/"," ")\
                                                                .replace("\\"," ")\
                                                                .replace(":"," ")\
                                                                .replace("*"," ")\
                                                                .replace("?"," ")\
                                                                .replace("\""," ")\
                                                                .replace("<", " ") \
                                                                .replace(">", " ")\
                                                                .replace("|", " ")
                CrawlSourcePage(host + url,filedir,filename,CrawledURLs)
            pass
        else:
            # 分頁(yè)地址 從中嵌套再次解析
            print "分頁(yè)地址 從中嵌套再次解析",url
            index = indexurl.rfind("/")
            baseurl = indexurl[0:index + 1]
            pageurl = baseurl + url
            if __isexit(pageurl,CrawledURLs):
                pass
            else:
                print "分頁(yè)地址 從中嵌套再次解析", pageurl
                CrawListPage(pageurl,filedir,CrawledURLs)
            pass
    pass

          
        

打開(kāi)每一個(gè)分類(lèi)的首頁(yè)會(huì)發(fā)現(xiàn)都有一個(gè)相同的結(jié)構(gòu)(點(diǎn)擊打開(kāi)示例)首先解析出包含資源URL的節(jié)點(diǎn),然后將名稱(chēng)和URL提取出來(lái)。這一部分有兩個(gè)需要注意的地方。一是因?yàn)樽罱K想要把資源保存到一個(gè)txt文件中,但是在命名時(shí)不能出現(xiàn)一些特殊符號(hào),所以需要處理掉。二是一定要對(duì)分頁(yè)進(jìn)行處理,網(wǎng)站中的數(shù)據(jù)都是通過(guò)分頁(yè)這種形式展示的,所以如何識(shí)別并抓取分頁(yè)也是很重要的。通過(guò)觀察發(fā)現(xiàn),分頁(yè)的地址前面沒(méi)有“/”,所以只需要通過(guò)正則表達(dá)式找出分頁(yè)地址鏈接,然后嵌套調(diào)用即可解決分頁(yè)問(wèn)題。

③解析資源地址保存到文件中

          
            #處理資源頁(yè)面 爬取資源地址
def CrawlSourcePage(url,filedir,filename,CrawledURLs):
    print url
    page = __getpage(url)
    if page=="error":
        return
    CrawledURLs.append(url)
    page = page.decode('gbk', 'ignore')
    tree = etree.HTML(page)
    Nodes = tree.xpath("http://div[@align='left']//table//a")
    try:
        source = filedir + "/" + filename + ".txt"
        f = open(source.decode("utf-8"), 'w')
        for node in Nodes:
            sourceurl = node.xpath("text()")[0]
            f.write(sourceurl.encode("utf-8")+"\n")
        f.close()
    except:
        print "!!!!!!!!!!!!!!!!!"

          
        

這段就比較簡(jiǎn)單了,將提取出來(lái)的內(nèi)容寫(xiě)到一個(gè)文件中就行了

為了能夠提高程序的運(yùn)行效率,使用了多線程進(jìn)行抓取,在這里我是為每一個(gè)分類(lèi)的主頁(yè)都開(kāi)辟了一個(gè)線程,這樣極大地加快了爬蟲(chóng)的效率。想當(dāng)初,只是用單線程去跑,結(jié)果等了一下午最后因?yàn)橐粋€(gè)異常沒(méi)處理到結(jié)果一下午都白跑了!!!!心累

          
            class myThread (threading.Thread):   #繼承父類(lèi)threading.Thread
    def __init__(self, url, newdir,CrawledURLs):
        threading.Thread.__init__(self)
        self.url = url
        self.newdir = newdir
        self.CrawledURLs=CrawledURLs
    def run(self):                   #把要執(zhí)行的代碼寫(xiě)到run函數(shù)里面 線程在創(chuàng)建后會(huì)直接運(yùn)行run函數(shù)
        CrawListPage(self.url, self.newdir,self.CrawledURLs)

          
        

以上只是部分代碼,全部代碼,可以關(guān)注本公號(hào),后臺(tái)回復(fù)【電影爬蟲(chóng)】,獲取源碼。

最后爬取的結(jié)果如下。


在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 思南县| 龙井市| 泌阳县| 天镇县| 闵行区| 班玛县| 大悟县| 绥中县| 宿松县| 宁陵县| 永仁县| 广平县| 礼泉县| 上杭县| 鱼台县| 东明县| 土默特右旗| 嘉禾县| 喀什市| 醴陵市| 丰镇市| 射洪县| 孝义市| 新建县| 南川市| 安西县| 镇江市| 增城市| 永昌县| 鸡泽县| 横山县| 正定县| 达拉特旗| 汪清县| 昔阳县| 延庆县| 涿州市| 翼城县| 景东| 天全县| 额尔古纳市|