其实之前实现过这个功能,是使用selenium模拟浏览器页面点击来完成的,但是效率实际上相对来说较低。本次以解密参数来完成爬取的过程。 首先打开煎蛋网http://jandan.net/ooxx,查看网页源代码。我们搜索其中一张图片的编号,比如3869006,看下在源代码中是否能找到图片链接 从上面 ...
分类:
编程语言 时间:
2018-06-24 22:26:51
阅读次数:
186
有话要说: 这次准备讲述用python爬虫以及将爬来的数据存到MySQL数据库的过程,爬的是煎蛋网的无聊图。 准备: 观察“无聊图”网页源码: 先上部分源码: 发现在源码里边图片链接并没有直接显示出来,而是在js中加载的。因此,不能用普通的爬虫方式来获取图片链接。 看了许多博客,最终决定采用Pyth ...
分类:
其他好文 时间:
2018-06-05 17:01:36
阅读次数:
186
0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程。第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便。于是乎就自己照猫画虎,抓了点图片。 科技启迪未来,身为一个程序员,怎么能干这种事呢,还是爬点笑话比较有益于身心健康。 0x ...
分类:
编程语言 时间:
2017-12-09 18:05:44
阅读次数:
271
windows下爬虫脚本必须配置以下内容,否则出现编码错误
importsys,io
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)
一、爬取煎蛋网内容
items.py#数据字段
importscrapy
classJiandanItem(scrapy.Item):
#definethefieldsforyouritemherelike:
#name..
分类:
其他好文 时间:
2017-10-27 18:02:03
阅读次数:
201
#_author_: edison#date: 2017/8/10china = { '广东':{ '广州':{'海珠':'红烧螃蟹','越秀':'蚝蛎煎蛋'}, '深圳':{'南山':'油焖大虾','罗湖':'小炒肉'}, '珠海':{'金湾':'清蒸螃蟹','斗门':'火爆腰花'}, }, '四 ...
分类:
编程语言 时间:
2017-08-11 13:38:47
阅读次数:
144
煎蛋栗子: typedef struct Node{int data;struct Node *next;}LinkList;LinkList *p=(LinkList *)malloc(sizeof(LinkList));在这里,变量p是【LinkList *】类型的【指针变量】它的值是指向某一个 ...
分类:
其他好文 时间:
2017-07-30 15:47:48
阅读次数:
191
煎蛋网、月光网站、卢松松网站都获得了成功。 我把网站划分为几个等级((违规网站、专业性质网站、商业网站、作弊、垃圾站不在此列,仅仅指个人网站) 起步阶段:0—1000ip(负收益) 初级阶段:1000—8000ip(收支持平) 中级阶段:8000—20000ip(有所收获) 高级阶段:20000—— ...
分类:
Web程序 时间:
2017-07-06 00:27:04
阅读次数:
172
下午刷煎蛋的时候看到 Dthalo 蛋友发的系列像素超载鸡,就想自己试试用python脚本画一个,老男孩视频里的作业真没兴趣,弄不好吧没意思,往好了写,自己控制不好,能力不够。 所以还是找自己有兴趣的先练练手,先实现,然后慢慢解耦。 *1、因为颜色有限,给超载鸡染了绿毛。 2、用字符串的join方法 ...
分类:
编程语言 时间:
2017-06-28 21:42:21
阅读次数:
178
废话不多说,先上代码: 结果如下: 由于时间原因,我只抓取了“煎蛋网”上的十个页面的美女图片罢了,大家可以更改其中的循环次数,可以抓取很多,这里我只抓取了250个图片,一共51.2kb,哈哈,可以很好的欣赏美女图片了,看的都要流鼻血了。。。 当然,此程序还是不够完善,只是我初学python网络爬虫的 ...
分类:
编程语言 时间:
2017-06-26 00:42:48
阅读次数:
1011