做的第一个爬虫就遇上了硬茬儿,可能是我http头没改好还是我点击次数过高导致无法循环爬取煎蛋网的妹子图。。。。 不过也算是邪恶了一把。。。技术本无罪~~~ 爬了几页的照片下来还是很赏心悦目的~ 基本的结构框架也就是:请求网页源代码-->通过正则表达式匹配相应的图片地址返回一个列表-->将列表中所有地 ...
分类:
编程语言 时间:
2017-04-09 16:26:16
阅读次数:
201
python版本:3.0 使用库: import urllib.request #打开网页的库 import os #创建文件夹有关 程序作用:批量爬取煎蛋网上图片 视频链接:链接:http://pan.baidu.com/s/1mhLBwWo 密码:1n51 有一点与视频不同:视频中图片链接为ht ...
分类:
其他好文 时间:
2017-02-25 12:31:59
阅读次数:
179
Last night I'd discovered that Charlie couldn't cook much besides friedeggs and bacon. 昨天晚上我终于发现查理除了煎蛋和熏肉什么也不会做。 So I requested that I be assigned kit ...
分类:
其他好文 时间:
2016-10-26 06:50:13
阅读次数:
151
re.search('[0-4]','abcd4ef') 正则表达式就这么多,还挺煎蛋的 ...
分类:
编程语言 时间:
2016-07-28 15:05:57
阅读次数:
118
公司门口有一个小摊买手抓饼和肉夹馍的,有时候中午不想吃饭就会去光顾一下那个小摊,点了手抓饼之后往往还可以在这个基础之上增加一些配料,例如煎蛋,火腿片等等,每个配料的价格都不一样,不管你怎么配配料,最终价格是手抓饼基础价加上每一种所选配料价格的总和。小摊的价格单如下: 如何使用一种设计模式来处理价格计 ...
分类:
其他好文 时间:
2016-07-17 23:33:56
阅读次数:
613
早上8:20到公司,在前台签完到后去U6吃早餐。最近发现U6有一个地方的面还挺不错了,在这里吃了几天了,每天早上一碗面、一个煎蛋、一碗豆浆,吃的好饱。 最近成都的天气很闷,吃完早饭就已经热出了一身汗,这天气也只有空调能救活我了。 到了工位就继续看oms阵列接入的代码,本来create方法的get_s ...
分类:
其他好文 时间:
2016-07-14 01:21:43
阅读次数:
224
__author__=mkdir(path):
os
path=path.strip()path=path.rstrip()mkfile=os.path.exists(path)
mkfile:
()
:
os.makedirs(path)
()
urllib,urllib2,re
geturl(url):
file_lists=[]
req=urllib2.Request(url)
req.add_header(,
)
data=urllib2.urlopen(req)
f=data.read()
..
分类:
编程语言 时间:
2016-05-17 19:49:36
阅读次数:
261
煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码。 执行上述代码,你得到的结果应该跟我一样: 煎蛋网应该是通过检测headers来判断是否爬虫,要想获取正常的源代码,需要伪装成浏览器。 当然,这个爬虫脚本也不是永久有效,说不定哪天煎蛋就出新招了, ...
分类:
其他好文 时间:
2016-05-17 13:03:15
阅读次数:
232