re.S让.能够匹配\n,默认情况点是不能匹配换行符的1.爬取网页源码中的图片#-*-coding:utf-8-*-
importre
importrequests
withopen(‘source.txt‘,‘r‘)asf:
html=f.read()
#匹配图片网址,括号中为需要返回的内容
pic_url=re.findall(‘imgsrc="(.*?)"class="lessonimg"‘,html,re..
分类:
编程语言 时间:
2015-12-20 17:44:26
阅读次数:
224
在编写python网络爬虫时,除了要考虑到爬虫的异常处理问题,我们是否还会考虑到cookie的使用呢?在使用cookie时,有想过为什么要使用cookie吗?一起来看看吧。
分类:
编程语言 时间:
2015-12-18 17:55:53
阅读次数:
992
下载博客园的logofrom urllib.request import urlretrievefrom urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.cnblogs.com"...
分类:
编程语言 时间:
2015-11-19 12:38:18
阅读次数:
165
代码 # -*- coding: cp936 -*-
__author__ = "christian chen"
import urllib2
import re
import threading
import time
class Tool:
def pTitle(self):
return re.compile(‘<title.*?>(.*?)</‘, r...
分类:
编程语言 时间:
2015-09-24 17:53:15
阅读次数:
266
下面我们创建一个真正的爬虫例子爬取我的博客园个人主页首页的推荐文章列表和地址scrape_home_articles.pyfrom urllib.request import urlopenfrom bs4 import BeautifulSoupimport rehtml = urlopen("h...
分类:
编程语言 时间:
2015-09-23 13:12:05
阅读次数:
208
最近拉肚子三天了,晚上单位又聚餐,一不小心吃多了点,晚上跑厕所跑的频繁,索性睡不着了,参照网上资料,敲了段python 爬虫代码,第一次学习除了shell 和js 外的脚本语言,无限的坑坑,都说python 的效率是...
分类:
编程语言 时间:
2015-09-21 19:51:39
阅读次数:
233
handle_excpetion.pyfrom urllib.request import urlopenfrom urllib.error import HTTPErrorfrom bs4 import BeautifulSoupimport sysdef getLogo(url): try...
分类:
编程语言 时间:
2015-09-16 17:30:18
阅读次数:
244
目标:我们解析百度首页的logobs_baidu_logo.pyfrom urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.baidu.com")bsObj = Beautiful...
分类:
编程语言 时间:
2015-09-16 12:48:22
阅读次数:
220
1. 安装Beautiful Soup下载地址http://www.crummy.com/software/BeautifulSoup/bs4/download/4.4/解压后,进入根目录控制台下运行:python setup.py install运行结果:Processing dependenci...
分类:
编程语言 时间:
2015-09-16 12:23:42
阅读次数:
254
问题背景:指定爬虫depth、线程数, python实现并行爬虫 思路: 单线程 实现爬虫类Fetcher 多线程 threading.Thread去调Fetcher 方法:Fetcher 中,用urllib.urlopen打开指定url,读取信息:response = urllib.urlopen(self.url)
content = respon...
分类:
编程语言 时间:
2015-09-07 22:55:23
阅读次数:
248