2018-06-13

python爬虫

爬虫介绍

爬虫定义

爬虫是请求网站并提取自己所需要数据的过程。通过我们的程序，可以代替我们向服务器发送请求，然后进行批量的数据下载。

爬虫基本流程

发起请求
通过url向服务器发送requests请求，请求可以包含额外的header信息。
获取响应内容
如果服务器正常响应，那么将受到一个response，response即为我们所请求的网页内容，可能包含html\json\二进制数据(图片、视频)等。
解析内容
如果是html代码则可以使用网页解析器进行解析；如果是json数据则可以转换成json对象进行解析；如果是二进制数据则可以保存到文件进行进一步的处理。
保存数据
可以保存到本地文件，也可以保存到数据库(mysql\redis\mongodb等)。
requests请求
当我们通过浏览器向服务器发送requests请求时，这个request包含什么内容？可以通过chrome浏览器的开发人员工具(F12)查看。
请求方式
最常用的请求方式包括get请求和post请求。
post请求在开发中最常见的是通过表单进行提交，从用户角度来讲最常见的就是登陆验证。当你需要输入一些信息进行登陆的时候，这次请求就是post请求。
get请求最常见的就是搜索回车之后，信息将以?间隔添加在url后面。类似于https://www.baidu.com/s?wd=python3%20requests。而且get请求是用来获取数据，是幂等的。
其他还包括put请求(向服务端发送信息从而改变内容)和delete请求(删除资源)。
对于资源的操作，其实都可以通过post/get完成，不需要用到put/delete，实际中put/delete也很少用。
uri统一资源定位符
一个网址、一个视频、一个图片都可以用uri去定义
requests headers
请求头，包括这次请求的类型，cookie信息以及浏览器类型等。
请求头在我们进行网页抓取的时候，服务器会通过解析请求头来进行信息的审核，判断请求是否为合法请求。所以当我们通过程序伪装浏览器进行请求的时候可以设置请求头的信息。
请求体
post请求会把用户信息包装在form-data里面进行提交，因此相比于get请求，post请求的Headers标签的内容会多出Form Data这个信息包。
response
响应状态
通过Headers中的General可以看到status code，使用数字代码表示对于状态，200表示成功，301跳转，404找不到网页，502服务器错误等。
响应头
包括内容的类型，cookie信息等。
响应体
请求的目的就是为了得到响应体，包括html代码，json及二进制数据等。
requests模块
安装使用pip install requests即可。

通过requests进行网页请求

import requests  
response = requests.get('https://www.baidu.com')  
print(response.text)  #输出结果为html，中文乱码
response.encoding = 'utf-8'  #修改编码
print(response.text)  #输出中文正常
print(response.status_code) #输出状态码，200

返回的response为文本时通过response.text读取；图片和视频等二进制文件通过response.content读取。

通过添加请求头信息

1 2	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36'} response1 = requests.get('https://www.baidu.com', headers=headers)

可以通过定义一个列表，然后通过random模块随机取一个header信息进行访问，防止一些反爬虫的操作。

获取cookie信息
cookie的五要素包括name、value、domain、path和expires。我们可以使用requests模块通过会话信息获取这些信息。
domain
代表cookie所在的域，默认情况下就是请求的域名，例如请求http://www.server1.com/files/hello, 那么响应中的set-Cookie默认会使用www.server1.com作为cookie的domain，在浏览器中也是按照domain来组织cookie的。我们可以在响应中设置cookie的domain为其他域，但是浏览器并不会去保存这些domain为其他域的cookie。
path 路径
path能够进一步的控制cookie的访问，当path=/，当前域的所有请求都可以访问到这个cookie。如果path设为其他值，比如path=/test,那么只有/test下面的请求可以访问到这个cookie。
expires 过期时间
name 对应的key值
value key对应的value值

import requests

url = "http://www.hao123.com/"
session = requests.session()
response = session.get(url=url).text
cookies = session.cookies

for cookie in cookies:
    print(cookie.name)
    print(cookie.value)
    print(cookie.domain)
    print(cookie.path)
    print(cookie.expires)

使用已知的cookie信息访问网站

import requests

cookie = dict(_ga="GA1.2.208618761.1528809975", _gid="GA1.2.604525626.1528979734", PHPSESSID="ait0b8c22ofqpo630cekpc33b6", _gat="1", Hm_lvt_0936ebcc9fa24aa610a0079314fec2d3="1528809975,1528809984,1528979734,1528980228", Hm_lpvt_0936ebcc9fa24aa610a0079314fec2d3="1528980228", ape__Session="ait0b8c22ofqpo630cekpc33b6")


url = "http://httpbin.org/cookies"
session = requests.session()
res = session.get(url=url, cookies=cookie)
res.encoding = res.apparent_encoding
print(res.text)

使用代理访问网站
采集信息时为避免IP地址被封，可以使用代理方式访问，可以通过requests模块的proxies属性。

import requests

url = "http://2018.ip138.com/ic.asp"
proxy = {"http": "http://221.228.17.172:8181"}
res1 = requests.get(url=url, proxies=proxy)
res2 = requests.get(url=url)
res1.encoding = res1.apparent_encoding
res2.encoding = res2.apparent_encoding
print(res1.text)    #输出结果为代理IP信息
print("###"*10)
print(res2.text)    #输出结果为本机IP信息

总结
requests模块提供的接口，在传输数据的时候，都可以以key:value的形式进行传输，方便数据处理。
关于requests中文乱码的问题，可以参考Python requests库中文编码问题
更多关于Requests模块的介绍可以点击Requests快速上手查看介绍

持续不断

要松懈的时候再坚持一下

python爬虫

爬虫介绍

爬虫定义

爬虫基本流程

requests请求

response

requests模块

Recommended Posts