如何做最好的定向爬虫架构
姓名:郭钟
当前职位:某创业公司担任爬虫工程师
摘要
随着互联网信息的不断发展,信息数据的挖掘技术也不断的发展。网络爬虫技术也随之得到了巨大的发展。而对于内容型驱动的网站来说反扒是一件必不可少的事情。很多网站用Jquery加壳、登录验证、限制单位IP每秒请求次数来阻止爬虫窃取数据。所以爬虫的智能性也受到越来大的挑战。特别是国内高匿代理IP资源少的问题给爬虫的...
分类:
其他好文 时间:
2015-03-22 09:18:47
阅读次数:
323
被自己的劣势限制,并不值得大惊小怪,但如果说,防止被自己的优势限制,可就有些令人“丈二”了,但的确有这样子的一堆例子不胜枚举。如,sun,java,mysql等等,太多了,因为被购而易主,使创造力的延续不能得到有效保障。个人和公司之间,权力(就来源于资本)的天平明显偏向于公司。而公司不过是一个空壳而...
分类:
其他好文 时间:
2015-03-21 12:39:00
阅读次数:
136
软件三重门:业务功能,业务性能,业务智能。这是我在看的《码农》第二期里酷壳博主陈皓说的。原文如下:
我在“软件开发‘三重门’”里说过,第一重门是业务功能,在这重门里,的确是会编程就可以了;第二重门是业务性能,在这一重门里,技术的基础就很管用了,比如操作系统的文件管理、进程调度、内存管理,网络的七层模型,TCP/UDP的协议,语言用法、编译和烦请库的实现,数据结构,算法等等就非常关键了;第...
分类:
其他好文 时间:
2015-03-20 23:54:04
阅读次数:
331
好久以前遇到过一个项目,其中调用一个封装好了的dll,混淆加密加壳还打乱命名了,反编译了出来也是看起来头大,直接IL修改重新生成dll解决了问题。 最近又需要改一个这样的dll,记录下来步骤 首先把dll单独复制出来,查看dll运行库 然后导出.il文件...................
分类:
其他好文 时间:
2015-03-20 12:39:26
阅读次数:
440
最近在公司里参与了M3项目的开发,这个项目是使用HTML5开发的前端页面,在开发完毕后,把项目地址写入Android、iOS的壳源码里面,这样当应用被打开时候自动载入项目首页的URL。这种做法对于用户来说,可以不用更新客户端,对于开发人员来说,发现问题可以及时修复并更新,当然这也是B/S软件的优点。
在这个APP里面是有个拨号功能的,即点击界面上的电话小图标,可以直接通过手机拨出号码。昨天同...
分类:
编程语言 时间:
2015-03-20 01:28:37
阅读次数:
264
听说有一种很高端的东西叫动态凸包维护dp就像学一下,不过介于本人还不会动态凸包就去学了下,还是挺神奇的说,维护上下凸包的写法虽然打得有点多不过也只是维护复制黏贴的事情而已罢了。先说下动态凸包怎么写吧,搞棵平衡树存上下凸壳然后每次插入一个点就往他左右维护看是否满足凸性否则就弹出,就是这么简单这道题就是...
分类:
其他好文 时间:
2015-03-19 23:53:22
阅读次数:
183
第二章 操作系统结构在具有多个命令解释程序选择的系统中,解释程序被称为外壳(shell)命令解释程序的主要作用是获取并执行用户指定的下一条命令。有三种应用程序员常用的API,适用于windows系统的win32API,适用于POSIX系统的POSIX API,以及用于设计运行于JAVA虚拟机程序的J...
分类:
其他好文 时间:
2015-03-19 08:51:00
阅读次数:
206