现在的位置: 主页 > 联系方式 > 文章正文

Python抓取网页批量下载文件方法初探(正则表达式+Bea

作者:陕西芙爱尔婚庆礼仪服务有限公司 来源:www.fair521.com 未知发布时间:2017-09-05 12:11:31
Python抓取网页批量下载文件方法初探(正则表达式+BeautifulSoup)

最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件。对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法。


一、用Python抓取网页

基本方法:


[python]
<SPAN style="FONT-SIZE: 14px">import urllib2,urllib

url = 'http://www.baidu.com'
req = urllib2.Request(url)
content = urllib2.urlopen(req).read()</SPAN>

import urllib2,urllib

url = 'http://www.baidu.com'
req = urllib2.Request(url)
content = urllib2.urlopen(req).read()


1)、url为网址,需要加'http://'

2)、content为网页的html源码


问题:

1、网站禁止爬虫,不能抓取或者抓取一定数量后封ip

解决:伪装成浏览器进行抓取,加入headers:


[python]
<SPAN style="FONT-SIZE: 14px">import urllib2,urllib

headers = { #伪装为浏览器抓取
'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}

req = urllib2.Request(url,headers=headers)
content = urllib2.urlopen(req).read()</SPAN>

import urllib2,urllib

headers = {#伪装为浏览器抓取
'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}

req = urllib2.Request(url,headers=headers)
content = urllib2.urlopen(req).read()[python] view plaincopyprint?
<SPAN style="FONT-SIZE: 14px">
</SPAN>

2、抓取网页中的中文为乱码问题

解决:用BeautifulSoup解析网页(BeautifulSoup是Python的一个用于解析网页的插件,其安装及使用方法下文会单独讨论)


首先需要介绍一下网页中的中文编码方式,一般网页的编码会在<meta>标签中标出,目前有三种,分别是GB2312,GBK,GB18030,三种编码是兼容的,

从包含的中文字符个数比较:GB2312 < GBK < GB18030,因此如果网页标称的编码为GB2312,但是实际上用到了GBK或者GB18030的中文字符,那么编码工具就会解析错误,导致编码退回到最基本的windows-2152了。所以解决此类问题分两种情况。

1)、若网页的实际的中文编码和其标出的相符的话,即没有字符超出所标称的编码,下面即可解决


[python]
<SPAN style="FONT-SIZE: 14px">import urllib,urllib2,bs4

req = urllib2.Request(url)
content = urllib2.urlopen(req).read()
content = bs4.BeautifulSoup(content)
return content</SPAN>

import urllib,urllib2,bs4

req = urllib2.Request(url)
content = urllib2.urlopen(req).read()
content = bs4.BeautifulSoup(content)
return content
2)、若网页中的中文字符超出所标称的编码时,需要在BeautifulSoup中传递参数from_encoding,设置为最大的编码字符集GB18030即可


[python]
<SPAN style="FONT-SIZE: 14px">import urllib,urllib2,bs4

req = urllib2.Request(url)
content = urllib2.urlopen(req).read()
content = bs4.BeautifulSoup(content,from_encoding='GB18030')
return content</SPAN>

import urllib,urllib2,bs4

req = urllib2.Request(url)
content = urllib2.urlopen(req).read()
content = bs4.BeautifulSoup(content,from_encoding='GB18030')
return content


二、用Python下载文件

使用Python下载文件的方法有很多,在此只介绍最简单的一种


[python]
<SPAN style="FONT-SIZE: 14px">import urllib

urllib.urlretrieve(url, filepath)</SPAN>

import urllib

urllib.urlretrieve(url, filepath)
url为下载链接,filepath即为存放的文件路径+文件名



三、使用正则表达式分析网页

将网页源码抓取下来后,就需要分析网页,过滤出要用到的字段信息,通常的方法是用正则表达式分析网页,一个例子如下:


[python]
<SPAN style="FONT-SIZE: 14px">import re

content = '<a href="http://www.baidu.com">'
match = re.compile(r'(?<=href=["]).*?(?=["])')
rawlv2 = re.findall(match,content)</SPAN>

import re

content = '<a href="http://www.baidu.com">'
match = re.compile(r'(?<=href=["]).*?(?=["])')
rawlv2 = re.findall(match,content)
用re.compile()编写匹配模板,用findall查找,查找content中所有与模式match相匹配的结果,返回一个列表,上式的正则表达式意思为匹配以‘href="'起始,以'"'结束的字段,使用非贪婪的规则,只取中间的部分

或 http://wiki.ubuntu.org.cn/Python%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%93%8D%E4%BD%9C%E6%8C%87%E5%8D%97

个人推荐第一篇,条理清晰,不重不漏

在此就不赘述正则表达式的学习,只总结一下我在实际写正则时的认为需要注意的几个问题:

企业建站2800元起,携手武汉肥猫科技,做一个有见地的颜值派!更多优惠请戳:黄石网站制作 http://huangshi.666rj.com

上一篇:输入10个数,将其中最小的数与第一个对换,最大的数与 下一篇:最后一页