帮朋友抓取微信公众平台的用户评论信息。只说核心的部分,怎么解析评论信息。
查看HTML代码,没有发现关于评论部分的标签。看了是用JS动态生成的,但是查找ajax请求也没有找到。最后搜索一下,原来是在这里:
wx.cgiData = {
total_count : 91,
latest_msg_id : '200325222...
分类:
微信 时间:
2014-07-22 22:59:35
阅读次数:
4934
今天来讲如何利用Python爬虫下载文章,拿韩寒的博客为例来一步一步进行详细探讨。。。
韩寒的博客地址是:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html
可以看出左边是文章列表,而且不止一页,我们先从最简单的开始,先对一篇文章进行下载,再研究对一页所有的文
章进行下载,最后再研究对所有的文章下载。...
分类:
编程语言 时间:
2014-07-22 22:59:35
阅读次数:
330
如果你对项目管理、系统架构有兴趣,请加微信订阅号“softjg”,加入这个PM、架构师的大家庭
随着BIG
DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间...
分类:
其他好文 时间:
2014-05-12 17:06:14
阅读次数:
396
Selenium关键字驱动测试框架Demo(Java版)http://www.docin.com/p-803493675.html
分类:
编程语言 时间:
2014-05-05 23:19:09
阅读次数:
361
本系列所有代码
https://github.com/zhangting85/simpleWebtest本文将介绍一个Java+TestNG+Maven+Selenium的web自动化测试脚本环境下testNG的Dataprovider的使用和数据驱动的自动化测试的实现,并提供全部代码。
分类:
其他好文 时间:
2014-05-05 22:26:08
阅读次数:
408
讨论了glusterfs对文件系统爬虫rsync/ls目录性能的现有优化措施和可能的进一步优化方案。优化思路是减少本地文件系统的元数据操作,减少fuse client的负载,减少req的网络轮询次数,减少一次网络通信时间,缓存预抓取,并发,异步,bulk 传输。...
分类:
其他好文 时间:
2014-05-05 13:24:35
阅读次数:
536
在高性能爬虫为什么使用定制DNS客户端一文中阐述了DNS解析是网络爬虫的瓶颈。目前主要有两种方法来提高DNS解析效率:1. 基于多线程的DNS 解析2.
基于NIO的DNS解析dnsjava中使用的解析方式就是基于多线程的DNS解析class ResolveThread extends Thread...
分类:
其他好文 时间:
2014-05-04 11:15:14
阅读次数:
300
在我刚入职时候,部门的组织架构还是分功能测试组和自动化组,每个组的负责人都向CTO汇报,功能测试组都是做纯功能测试的,而自动化组包括测试环境的搭建维护,自动化框架开发,自动化用例编写及性能测试,当然不同的负责人之间的知识共享也并不是很多,所以也就造成了功能测试组对技术研究的并不是很多,多专注于业务相关的技术上,自动化及性能相关的也多是停留在知识分享及培训上,也许个别同学有下来自己研究并尝试实践,但...
分类:
其他好文 时间:
2014-05-03 21:59:34
阅读次数:
311
先说说看这篇博客你能知道什么:1 腾讯、网易、新浪不同新闻的地址格式以及评论内容的地址格式(返回数据为json的异步接口);2 一些比较通用的设计方法,对软件设计的菜鸟可能有帮助;
之前也说了要写这边博客,现在终于写出来了。我的毕业设计的指导老师说毕设论文的字数不够……所以我决定把这些本不应该出现在论文中的实现细节凑到论文中。至于下面说到的东西要解决什么问题,各位可以先看看这个网站(我毕设的初步结果,目前还在优化中,包括代码结构还有UI设计):http://reetseenews.duapp.com/
这个...
分类:
Web程序 时间:
2014-05-02 06:50:01
阅读次数:
436
DNS 解析是高性能网络爬虫的瓶颈,主要是因为:1.
由于域名服务的分布式的特性,DNS解析可能需要多次的请求转发,有时需要几秒甚至更长的时间来解析出相应的IP 地址。2.
现有的标准库对DNS解析的实现是同步的。JAVA中InetAddress.getByName是线程阻塞的。并且JAVA中实现的...
分类:
其他好文 时间:
2014-05-02 00:20:56
阅读次数:
349