码迷,mamicode.com
首页 > Windows程序 > 详细

c#蜘蛛程序之HTML解析利器HtmlAgilityPack

时间:2015-08-21 10:48:51      阅读:221      评论:0      收藏:0      [点我收藏+]

标签:

在以前的项目中对HTML解析的,是采用正则表达式一步步将无关的HTML注释及JS代码部分删除掉,然后再用正则表达式找出需要提取的部分,可以说使用正则表达式来做是一个比较繁琐的过程,特别是对于正则表达式不是很熟悉或者要处理的HTML很复杂的情况下。

现在我们可以用一个.NET下的HTML解析类库HtmlAgilityPack。HtmlAgilityPack是一个支持用XPath来解析HTML的类库,学习了解HtmlAgilityPack的API和XPath非常必要。

HtmlAgilityPack是一个开源的.NET类库,它的主页是http://htmlagilitypack.codeplex.com/,在这里可以下载到最新版的类库及API手册,此外还可以下载到一个用于调试的辅助工具。
XPath简明介绍
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
下面列出了最有用的路径表达式:
nodename:选取此节点的所有子节点。 
/:从根节点选取。 
//:从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 
.:选取当前节点。 
..:选取当前节点的父节点。
例如有下面一段XML:
< ?xml version="1.0" encoding="utf-8" ?>
< articles>
<Article>
<Title>牛B的简历是神马,如此神奇。</Title>
<Url>http://chebazi.net/showtopic-401.aspx</Url>
<CreateAt type="en">2011-04-07</CreateAt>
</Article>
<Article>
<Title lang="eng">
【功夫熊猫2】美国2011冒险动作动画大片
</Title>
<Url>http://chebazi.net/showtopic-109.aspx</Url>
<CreateAt type="zh-cn">
2010年11月23日
</CreateAt>
</Article>
<Article>
<Title>
是爷们的必看,女生勿入!!!
</Title>
<Url>http://chebazi.net/showtopic-396.aspx</Url>
<CreateAt type="zh-cn">
2011年06月12日
</CreateAt>
</Article>
<Article>
<Title lang="eng">
暧昧
</Title>
<Url>http://www.iofeng.com/</Url>
<CreateAt type="zh-cn">
2007-09-08
</CreateAt>
</Article>
< /articles>


针对上面的XML文件,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
/Articles/Article[1]:选取属于Articles子元素的第一个Article元素。 
/Articles/Article[last()]:选取属于Articles子元素的最后一个Article元素。 
/Articles/Article[last()-1]:选取属于Articles子元素的倒数第二个Article元素。 
/Articles/Article[position()<3]:选取最前面的两个属于 bookstore 元素的子元素的Article元素。 
//title[@lang]:选取所有拥有名为lang的属性的title元素。 
//CreateAt[@type=‘zh-cn‘]:选取所有CreateAt元素,且这些元素拥有值为zh-cn的type属性。
/Articles/Article[Order>2]:选取Articles元素的所有Article元素,且其中的Order元素的值须大于2。 
/Articles/Article[Order<3]/Title:选取Articles元素中的Article元素的所有Title元素,且其中的Order元素的值须小于3。

HtmlAgilityPack API简明介绍
在HtmlAgilityPack中常用到的类有HtmlDocument、HtmlNodeCollection、
HtmlNode和HtmlWeb等。
其流程一般是先获取HTML,这个可以通过HtmlDocument的Load()或LoadHtml()来加载静态内容,或者也可以HtmlWeb的Get()或Load()方法来加载网络上的URL对应的HTML。
得到了HtmlDocument的实例之后,就可以用HtmlDocument的DocumentNode属性,这是整个HTML文档的根节点,它本身也是一个HtmlNode,然后就可以利用HtmlNode的SelectNodes()方法返回多个HtmlNode的集合对象HtmlNodeCollection,也可以利用HtmlNode的SelectSingleNode()方法返回单个HtmlNode。
HtmlAgilityPack实战
http://www.hao123.com/game.htm为列获取下面各项的链接和文字。

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net;
using System.Web;
using System.Web.UI;
using System.Web.UI.WebControls;
using System.Text;
using HtmlAgilityPack;

public class Category
{
public string Subject { get; set; }
public string IndexUrl { get; set; }
}
public partial class _Default : System.Web.UI.Page
{
private const string CategoryListXPath = "//html[1]/body[1]/div[3]/center[1]/div[1]/table[1]/tr"; //关键点,不同网站分析不同的路径
private const string CategoryNameXPath = "//td/a[1]"; //关键点,不同网站分析不同的路径
private const string ChooseXPath = "//a[1]";
protected void Button1_Click(object sender, EventArgs e)
{
Uri url = new Uri(this.TextBox1.Text.Trim());
Uri uriCategory = null;
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
WebResponse response = request.GetResponse();

Stream stream = response.GetResponseStream();
StreamReader read = new StreamReader(stream,Encoding.GetEncoding("gb2312"));
string str = read.ReadToEnd();

HtmlDocument html = new HtmlDocument();
html.LoadHtml(str);
HtmlNode rootNode = html.DocumentNode; 
HtmlNodeCollection categoryNodeList = rootNode.SelectNodes(CategoryListXPath); 
HtmlNode temp = null;
List<Category> list = new List<Category>(); 
foreach (HtmlNode categoryNode in categoryNodeList)

temp = HtmlNode.CreateNode(categoryNode.OuterHtml); 
HtmlNode singleNode = temp.SelectSingleNode(CategoryNameXPath);
if(singleNode == null)
continue;
HtmlNodeCollection singleList = temp.SelectNodes(CategoryNameXPath);
foreach(HtmlNode node in singleList)
{
HtmlNode createNode = HtmlNode.CreateNode(node.OuterHtml);
HtmlNode reNode = createNode.SelectSingleNode(ChooseXPath);
if (reNode == null)
continue;
Category category = new Category();
category.Subject = reNode.InnerText;
Uri.TryCreate(url, reNode.Attributes["href"].Value, out uriCategory);
category.IndexUrl = uriCategory.ToString();
list.Add(category); 

}

string re =null;
foreach (Category cate in list)

re +=string.Format("<tr><td><a href={0}>{1}</a></td></tr>",cate.IndexUrl,cate.Subject);
}
this.Literal1.Text = string.Format("<table>{0}</table>", re);
}
protected void Page_Load(object sender, EventArgs e)
{

}
}

c#蜘蛛程序之HTML解析利器HtmlAgilityPack

标签:

原文地址:http://www.cnblogs.com/waiwai1015/p/4747097.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!