.NET开发：[固定格式网页解析]使用正则表达式解析的初步体会

热点排行

[固定格式网页解析]使用正则表达式解析的初步体会

类别：.NET开发点击：0 评论：0 推荐：

用IE WebControl解析网页得到特定网页中的特定数据：

    Set oDocument = Form2.m_IE.Document
    Set oelement = oDocument.Forms("searchdetail")

    Set oListTableElement = oelement.children(0).children(0)

这样的好处是简单，但坏处是：如何读取以及节点值究竟是什么含意这些信息，不太好抽取出来放到外面，作为灵活配置的文件。

因为它属于一个Childnodes一个Childnodes这么遍历的，无法灵活设定深度以及含义。

又体验了一把正则表达式，专门处理了北京式门户的站点HTML，由于北京式门户的12个省总排行榜页面中总包含这样的固定代码：

发现下面的式子可以把一系列值解析到一个又一个的MatchCollection中。

我用的是"The Regulator"工具，试验结果如下：

也就是Collection“hiddentonenames”总是XX名的集合，按序排列；

Collection“hiddenspnames”总是XX名的集合，按序排列；

Collection“hiddensingers”总是XX名的集合，按序排列；

以此类推。

在C#中，可以用如下代码得到各个集合的值：

foreach(Match match in matchCollection)

{

Group groupToneNames = match.Groups["hiddentonenames"];

Group groupSpNames = match.Groups["hiddenspnames"];

Group groupSingers = match.Groups["hiddensingers"];

}

这样，我可以针对这各种门派的Portal风格写出专门的正则表达式，但让他们输出的Collections名字都是一样的，从而让获取

一个铃声的各个字段的代码固定下来。

以后更新，只需要修改各个门派的正则表达式即可。

感谢王辉的《Web页面爬行实践》精彩文章！

本文地址：http://com.8s8s.com/it/it44066.htm