一:起因
(1)最近用于任务需要一直在爬取网页HTML的内容,与类似于爬虫的HtmlParser接触的比较多,爬取无非就是过滤自己想要的信息,因此Filter是核心,当然String类中的matches(regex)函数和contains(str)函数也是非常有用的
(2)经常和爬虫打交道就会分析各式各样的网站设计以及布局:用的设计的非常有规律,如QQ空间,微博信息等爬取非常简单(当时要想翻页...
分类:
Web程序 时间:
2014-12-25 18:28:39
阅读次数:
325
这是java 语言的,有python的如果要的话在评论区要把,直接上代码~~ 1 import java.io.BufferedReader; 2 import java.io.IOException; 3 import java.io.InputStream; 4 i...
分类:
其他好文 时间:
2014-12-25 16:04:50
阅读次数:
138
本文主要介绍了Android apk反编译基础,使用的工具是apktoos,我们将用图文的方式说明apktoos工具的使用方式,你可以参考这个方法反编译其它APK试试看了很久有写过一个广工图书馆主页一个类爬虫的demo(因为没接口,只能扒取静态网页),实现一些图书馆系统的一些功能。但最近发现图书馆系...
分类:
移动开发 时间:
2014-12-25 14:14:24
阅读次数:
281
还是老样子,本来想自己写的,但是发现这个哥们写的相当详细,直接搬过来即可
安装环境:OS X操作系统,Python 2.7.3。
MySQLdb其实包含在MySQL-python包中,因此无论下载还是在pip中search,都应该是搜寻MySQL-python。
以下将说明MySQLdb两种常见的安装方式,下载安装或者pip安装MySQL-python。
下...
分类:
其他好文 时间:
2014-12-24 14:45:27
阅读次数:
199
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?...
分类:
其他好文 时间:
2014-12-24 14:42:27
阅读次数:
254
package http.login;import java.io.BufferedReader;import java.io.InputStreamReader;import java.util.List;import org.apache.http.Header;import org.apach...
分类:
其他好文 时间:
2014-12-24 11:19:57
阅读次数:
144
距离第二轮迭结束只有几天了。我们全体组员现在的工作方向都在应用测试上。明天的任务分配如下成员已完成任务新任务彭林江落实API自动爬虫测试王卓提升爬虫程序性能正确性测试郝倩提升爬虫程序性能性能测试高雅智测试已完成组件客户端测试牛强落实意见反馈功能测试客户端测试张明培育实施UI改善服务器接口测试下面是今...
分类:
其他好文 时间:
2014-12-24 01:08:39
阅读次数:
162
周一,大家现在课程也比较少,今天都在非常努力地写代码。任务分配如往常一样,我们现在基本将工作的重心放在完善已有的组件上。成员任务彭林江落实API牛强落实意见反馈功能测试高雅智测试已完成组件郝倩提升爬虫程序性能王卓提升爬虫程序性能张明培育实施UI改善燃尽图如下由于之前TFS出了一些问题,下面是燃尽图该...
分类:
其他好文 时间:
2014-12-22 22:48:26
阅读次数:
245
在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天。后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法。感觉没啥意思,so就半途而废,玩别的技术领域去了。 大学毕业加入秒针,对广告和监测有了一定的兴趣。so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索、点击、广告点击等监测统计,存到数据库。 这个项目,还真是做了,做完了一个Demo版。借助jsoup和自己写几行代...
分类:
其他好文 时间:
2014-12-21 19:29:09
阅读次数:
193