博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取图片(一)
阅读量:4358 次
发布时间:2019-06-07

本文共 1719 字,大约阅读时间需要 5 分钟。

源码:

1 import requests 2 from lxml import etree 3 from urllib import request 4 import os 5  6 # 获取页面图集链接 7 def get_url_list(page,headers): 8     url = 'http://www.meizitu.com/a/more_{}.html'.format(page) 9     response = requests.get(url,headers=headers)10     response.encoding = 'gbk'11     # print(response.text)12     html_ele = etree.HTML(response.text)13     ele_list = html_ele.xpath('//ul[@class="wp-list clearfix"]/li')14     page_list = []15     for ele in ele_list:16         url = ele.xpath('./div/div/a/@href')17         # print(url)18         page_list.append(url[0])19     return page_list20 21 # 保存图片22 def get_pictures(url,headers):23     response = requests.get(url,headers=headers)24     response.encoding = 'gbk'25     html_ele = etree.HTML(response.text)26     dir = html_ele.xpath('//div[@class="metaRight"]/h2/a')[0].text27     dir_name = '妹子图/' + dir28     if not os.path.exists(dir_name):29         os.makedirs(dir_name)30     url_list = html_ele.xpath('//div[@id="picture"]/p/img/@src')31     for url in url_list:32         try:33             name = url.split('/')[-1]34             filename = dir_name + '/' + name35             if not os.path.exists(filename):36                 request.urlretrieve(url,filename)37                 print(filename)38         except:39             pass40 41 42 if __name__ == '__main__':43     headers = {44         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'45     }46     for page in range(1,73):47         page_list = get_url_list(page,headers)48         for url in page_list:49             get_pictures(url,headers)

 

转载于:https://www.cnblogs.com/zhxd-python/p/9501299.html

你可能感兴趣的文章
CSS3伪类选择器:nth-child()
查看>>
POJ2524——Ubiquitous Religions
查看>>
UVA548——Tree(中后序建树+DFS)
查看>>
Hbase配置(伪分布式模式)
查看>>
Java导包问题
查看>>
python基础-协程函数、递归、模块、包等内容
查看>>
JNI和NDK的关系
查看>>
centos7 学习1 KDE配置中文
查看>>
C语言陷阱:浮点运算
查看>>
AngularJS XMLHttpRequest
查看>>
Java反射-方法(Method)
查看>>
移除SharePoint2013里的NoteBook笔记本链接
查看>>
数据集
查看>>
Objective-C内存管理教程和原理剖析(四)
查看>>
Android:源码环境下移植第三方的apk内置到ROM(System Image)中
查看>>
Android 之SparseArray<E>详解
查看>>
php面试的那些“黑话”
查看>>
poi快速导入导出excel表格
查看>>
修改删除修改4.1.2拨号盘和移动删除键位置
查看>>
RESTClient插件POST方法传递参数
查看>>