日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

python 爬取網(wǎng)站圖片

系統(tǒng) 1885 0

?爬取圖片方法一:?requests

            
              #!/usr/bin/python2.7 
# -*- coding: utf-8 -*-
import re
import requests
import os
import shutil

suyan_url= 'http://www.xiaohuar.com/s-1-2069.html'

response  = requests.get(suyan_url)
# print(response.content)

lists = re.findall(r'href="(?:.*?)".*?class="(?:.*?)"',response.text,re.S)  #re.S 把文本信息轉(zhuǎn)換成1行匹配

folder = 'aabb'
if os.path.exists(folder):
        shutil.rmtree(folder)
os.mkdir(folder);
os.chdir(folder);

for each in lists:
    imgurl = each.split(' ')[0][6:-1]
    if imgurl[-4:] == '.jpg':
        filename = imgurl.split('/')[-1]
        img  = requests.get(imgurl)
        with open(filename,'wb') as f:
            f.write(img.content)
            
          

?

爬取圖片方法二:urllib.request

            
              import urllib.request
import os
import random
import shutil

def url_open(url):
    req = urllib.request.Request(url)
    #模擬瀏覽器登陸 獲取
    req.add_header('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36')
    
    proxies = ['124.207.82.166:8008', '218.89.14.142:8060', '49.64.86.43:8080', '101.231.104.82:80']
    proexy = random.choice(proxies)
    # 使用代理ip訪問(wèn)
    proxy_support = urllib.request.ProxyHandler({'http':proexy})
    opener = urllib.request.build_opener(proxy_support)
    urllib.request.install_opener(opener)

    response = urllib.request.urlopen(req)
    html = response.read()

    return html

def get_page(url):
    html = url_open(url).decode('utf-8')
    a = html.find('current-comment-page') + 23
    b = html.find(']', a)
    # print(html[a:b])
    print(url)
    return html[a:b]

def find_imgs(url):
    html = url_open(url).decode('utf-8')
    img_addrs = [];
    a = html.find('img src=')
    while a != -1:
        b = html.find('.jpg', a, a+255)    
        if  b != -1:
            img_addrs.append('http:' + html[a+9:b+4])
        else:
            b = a + 9
        a = html.find('img src=', b)
    for each in img_addrs:
        print(each)
    return img_addrs

def save_imgs(folder, img_addrs):
    idx = 0
    for each in img_addrs:
        filename = each.split('/')[-1]
        idx += 1
        with open(filename, 'wb') as f:
            print('-------' + str(idx))
            img = url_open(each)
            f.write(img)

def download_mm(folder='HHAA', pages=10):
    if os.path.exists(folder):
        shutil.rmtree(folder) #如果存在這個(gè)文件夾,則刪除文件夾 并 刪除里面的文件
    os.mkdir(folder) #創(chuàng)建一個(gè)文件夾
    os.chdir(folder)  #將工作目錄定位到當(dāng)前的文件夾
    print(os.path)

    url = 'http://jandan.net/ooxx/'
    page_num = int(get_page(url))

    for i in range(pages):
        page_num -= i
        page_url = url + 'page-' + str(page_num) + '#comments'
        print(page_url)
        img_addrs = find_imgs(page_url)
        save_imgs(folder, img_addrs)


if __name__ == '__main__':
    download_mm()

            
          

?


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 理塘县| 镇雄县| 郸城县| 自贡市| 江源县| 南丰县| 文成县| 海安县| 镇沅| 江达县| 无棣县| 全椒县| 乳源| 白银市| 丽江市| 池州市| 高雄市| 普安县| 漳平市| 新巴尔虎左旗| 井研县| 汉沽区| 唐河县| 青海省| 阳城县| 龙江县| 高邮市| 县级市| 海宁市| 河曲县| 剑川县| 宁夏| 门头沟区| 涪陵区| 黄石市| 南平市| 黄浦区| 义乌市| 阿巴嘎旗| 聂荣县| 山阴县|