1.项目背景在python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中。2.解决方案为了解决这个问题,我们把影响通用性和工作效率的提取器隔离..
分类:
编程语言 时间:
2016-05-27 15:02:06
阅读次数:
186
Scrapy是一个优秀的Python爬虫框架,可以很方便的爬取web站点的信息供我们分析和挖掘,在这记录下最近使用的一些心得。 1.安装 1 sudo pip install scrapy 2.创建爬虫项目 1 scrapy startproject youProjectName 3.抓取数据 1 ...
分类:
其他好文 时间:
2016-05-25 18:49:49
阅读次数:
407
2016.5.24 Cnblogs注册很久了,觉得是时候写点东西了。 本人(不是土科班出身),2014年接触编程,最早是C语言,没什么成果,只是了解了基本知识。 之后开始学Python,作品有Python爬虫,文本处理; 然后就是PHP(html,css学过),感觉不会写前端,真心不会,PHP知识还 ...
分类:
其他好文 时间:
2016-05-24 22:13:10
阅读次数:
166
1.分分钟爬一个网页下来 怎么爬网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是他的衣服。所以最重要部分是 ...
分类:
编程语言 时间:
2016-05-24 20:56:41
阅读次数:
163
首先,同样的操作,PEID查壳: VB的程序,没有壳,OK,注意一下VB中的函数就可以了,这里推荐一个微博,总结了在逆向中常用到的VB的函数 VB程序逆向反汇编常见的函数 试着自己运行: OD运行起来,右键,查找,查找所有参考文本字符串,找到错误字符串的位置 看到我们的错误字符串了,You Get ... ...
分类:
其他好文 时间:
2016-05-24 00:13:31
阅读次数:
405
javascript富文本编辑器使我们添加、编辑网站中的文章更加方便和容易。这些富文本编辑器提供了所见即所得(What You See Is What You Get - WYSIWYG)的功能,可以像编辑word文档一样,方便地编辑网站中文章,常用于内容管理系统和博客系统等。 百度Ueditor富 ...
分类:
Web程序 时间:
2016-05-23 00:50:04
阅读次数:
762
1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。想抓取什么,就靠你自己去控制它。 比如它在抓取一个网页,在这个网中它发现了一条道路,其实就是指向网页的超链接,那么它就可以爬虫另一张网 ...
分类:
编程语言 时间:
2016-05-22 21:29:14
阅读次数:
173
环境:Mac OSX 终端工具:iTerm2 1. 例 显示baidu源码 2. 有关headers #爬虫中添加headers为了模拟浏览器的工作,否则有的页面不允许直接访问# MacOS下查看headers方法: Chrome:视图-开发者-开发者工具,右侧点击Network,然后单击url(b ...
分类:
编程语言 时间:
2016-05-20 13:12:20
阅读次数:
168
在上一篇python使用xslt提取网页数据中,要提取的内容是直接从网页的source code里拿到的。 但是对于一些Ajax或动态html, 很多时候要提取的内容是在source code找不到的,这种情况就要想办法把异步或动态加载的内容提取出来。 python中可以使用selenium执行ja ...
分类:
编程语言 时间:
2016-05-20 11:22:37
阅读次数:
240