参考博客:C#中的WebBrowser控件的使用参考博客:C#中利用WebBrowser控件,获得HTML源码一、问题点:1、模拟登录后,如果带有嵌套的iframe嵌套,不好读取iframe内容,可以直接指定iframe抓取网址2、C# 清除WebBrowser控件的Session和Cookie参考...
                            
                            
                         
                    
                        
                            
                            
                                最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了)...
                            
                            
                                分类:
编程语言   时间:
2016-01-10 23:54:42   
                                阅读次数:
238
                             
                         
                    
                        
                            
                            
                                2015已经过去,这是2016的第一篇博文!祝大家新年快乐!但是我还有好多期末考试!还没开始复习,唉,一把辛酸泪!最近看了一遍彦祖的文章叫做iOS程序员如何使用Python写网路爬虫所以自己也想小试牛刀.于是便开始动手写,但初次接触,还是遇见了很多不懂的东西,于是爬文一个一个解决了,最终抓取了自己想...
                            
                            
                                分类:
编程语言   时间:
2016-01-02 16:03:55   
                                阅读次数:
253
                             
                         
                    
                        
                            
                            
                                1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。 查看搜索引擎爬虫的USERAGENT值:http://www.cnblogs.com/grimm/p/5068092.html (http://www.geekso.com/spdier-useragent/ )2.使用Sno.....
                            
                            
                                分类:
Web程序   时间:
2015-12-22 22:33:49   
                                阅读次数:
944
                             
                         
                    
                        
                            
                            
                                HtmlUnit将HttpClient和java自带的网络API进行结合,使抓取数据变的更加容易、更加易于操作。HtmlUnit的底层还是封装了HttpClient,但是经过封装后,解析出来的内容更像一个网页,而不是抽象的请求和响应,所以更加便于开发人员上手。//[1]new一个WebClient,在其中定义一种浏..
                            
                            
                                分类:
Web程序   时间:
2015-12-20 17:41:33   
                                阅读次数:
400
                             
                         
                    
                        
                            
                            
                                [Measures].[抓取数据].[名称].&[58同城].[名称]正则表达式&\[([^.]+)(?=)Match m = Regex.Match("[Measures].[抓取数据].[名称].&[58同城].[名称]", @"&\[([^.]+)(?=])", RegexOptions.Ig...
                            
                            
                                分类:
其他好文   时间:
2015-12-03 19:07:41   
                                阅读次数:
109
                             
                         
                    
                        
                            
                            
                                charles使用教程指南前言移动APP抓包PC端抓包查看模式其他功能问题汇总1、 前言:Charles是一款抓包修改工具,相比起burp,charles具有界面简单直观,易于上手,数据请求控制容易,修改简单,抓取数据的开始暂停方便等等优势!下面来详细介绍下这款强大好用的抓包工具。Java环境下载:...
                            
                            
                                分类:
其他好文   时间:
2015-11-26 13:03:28   
                                阅读次数:
189
                             
                         
                    
                        
                            
                            
                                测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标。在poptest的selenium的课程中,我们在培训的课程里讲python的语言,也是通过项目实战的方式进行讲解,前期分享....
                            
                            
                                分类:
编程语言   时间:
2015-11-17 18:38:57   
                                阅读次数:
273
                             
                         
                    
                        
                            
                            
                                前端:1、IETest:测试各浏览器的兼容性2、markdown编辑器:在线文本编辑器3、Filldler:可以抓取数据包,便于分析请求的过程。在Composer中可以模拟get/post/put等各种类型的请求后端:1、http://getglimpse.com/:监测网站性能、监控sql语句更新...
                            
                            
                                分类:
其他好文   时间:
2015-11-16 19:31:46   
                                阅读次数:
191
                             
                         
                    
                        
                            
                            
                                【HttpHelper万能框架】教程目录贴http://www.sufeinet.com/thread-9989-1-1.html在我们使用万能框架抓取数据时,我相信用的最多的一种格式可能就是Json格式了。因为大部分Ajax是采用的这种格式。今天万能框架帮助您实现一个将Json转为对象的方法。也就...
                            
                            
                                分类:
Web程序   时间:
2015-11-12 19:52:55   
                                阅读次数:
213