最近项目需要从网络上抓取一下数据解析Html源码,奈何正则表达式难写,于是网上搜索找到了“HtmlAgilityPack”类库,敏捷开发,果然效率非同寻常。在此做笔记,写下心得,顺便给自己总结一下。1、HtmlAgilityPack使用的是XPath进行路径搜索,如果对XML路径搜索很熟悉,用起来会...
分类:
Web程序 时间:
2014-07-26 01:24:16
阅读次数:
246
WebClient client = new WebClient(); MemoryStream ms = new MemoryStream(client.DownloadData("http://www.cnblogs.com/")); ...
分类:
Web程序 时间:
2014-07-24 17:06:35
阅读次数:
199
网上找了很多资料,PHP的比较多,然后找到有csv文件的,处理起来很麻烦,国外的网站速度很慢。
最后还是去页面上抓取数据,我是从中国银行抓取的,各位可去其他网站抓取。
1、模拟请求URL。
string url = "http://srh.bankofchina.com/search/whpj/search.jsp?pjname=1316";
HttpWebRequest reques...
分类:
Web程序 时间:
2014-07-23 17:00:01
阅读次数:
228
介绍:http://www.cnblogs.com/bomo/archive/2013/01/28/2879361.html实战 c#获取外网ip网址:http://ip138.com/如图:分析有个iframe 实际上查看网页源代码是没有ip的 原因浏览器引擎解析会解析src 地址:所以我们先获取...
分类:
Web程序 时间:
2014-07-23 16:56:41
阅读次数:
351
HtmlAgilityPack是.net下的一个HTML解析类库。支持用XPath来解析HTML。这个意义不小,为什么呢?因为对于页面上的元素的xpath某些强大的浏览器能够直接获取得到,并不需要手动写。节约了大半写正则表达式的时间,当然正则表达式有时候在进一步获取的时候还需要写,但是通过xpat....
分类:
Web程序 时间:
2014-07-13 12:07:18
阅读次数:
222
HtmlAttribute 在HtmlAgilityPack扮演的是一个HTML代码属性的容器,同时提供了用于处理HTML属性的一些功能。一、属性int Line { get; } 获取文档中的此属性的行数。int LinePosition { get; } 获取文档...
分类:
Web程序 时间:
2014-07-13 12:05:49
阅读次数:
176
在HtmlAgilityPack里,HtmlTextNode对应的是文本节点。这是一个非常简单的一个类,方法和字段都比较少。一、属性override string InnerHtml { get; set; } 文本内的HTML代码(不包括自身)override string OuterHtm...
分类:
Web程序 时间:
2014-07-13 11:53:07
阅读次数:
261
HtmlAgilityPack中的HtmlNode类与XmlNode类差不多,提供的功能也大同小异。下面来看看该类提供功能。一、静态属性public static Dictionary //ElementsFlags;获取集合的定义为特定的元素节点的特定行为的标志。表包含小写标记名称作为键和作为值的...
分类:
Web程序 时间:
2014-07-13 11:10:20
阅读次数:
142
原文:C# winform调用WebBrowser经典怪问题总结最近一直研究网页数据采集,单单采集数据,其实HtmlAgilityPack就足够了。对HtmlAgilityPack感兴趣的可以到这里看看:C#采集代理服务器ip并设置IE代理--HtmlAgilityPack实战代码 但是有个问题:要...
作者:郝喜路 个人主页: http://www.cnicode.com 博客地址:http://haoxilu.cnblogs.com 时间:2014年6月26日 19:25:02 刚刚在博客园 看到一篇博文《使用HttpWebRequest和HtmlAgilityPack抓取网页(拒绝乱码...
分类:
Web程序 时间:
2014-06-27 11:38:56
阅读次数:
324