找回密码
 FreeOZ用户注册
查看: 1658|回复: 8
打印 上一主题 下一主题

[论坛技术] 请教.net的同志们,html中tag内容的提取。

[复制链接]
跳转到指定楼层
1#
发表于 30-4-2009 22:56:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?FreeOZ用户注册

x
请教诸位达人,我试图从一个html文件中,取出一些内容。但这些tag没有id。只是单纯的tag。在.net(或js)中怎么才能取出来?
我的笨办法是:找到它们最上层中有id的那个tag,先提取出来,然后将所有<dt>和<dd>取出来,轮询,对比。<dt>是title, <dd>中的内容是我要的。
1. 请问还有什么好办法吗?
2. dd,dl没有设置id, 那它是如何动态插入数据的呢?
<dl class="DetailHighlights">
<dt class="alt">SIZE: </dt>
<dd class="alt">400</dd>
<dt>Type: </dt>
<dd>Private</dd>
</dl>

还请多多指教。
把这个手头的工作,完成。我可以好好多和大家讨论设计模式,呵呵。
回复  

使用道具 举报

2#
发表于 1-5-2009 00:34:17 | 只看该作者
google "html parser"
回复  

使用道具 举报

3#
发表于 1-5-2009 09:38:21 | 只看该作者
.net我不清楚,但是java的话,用XML Parser是肯定可以的,DOM或者SAX都可以,.net应该有自己的XML Parser。
回复  

使用道具 举报

4#
发表于 1-5-2009 12:14:15 | 只看该作者
.net具体的不知道,但是对于一般的xml解析来讲,如果你获得了dl,你就应该可以获得它的所有的子对象。

或者用xpath,  //dl[@class="DetailHighlights"]/dt  来直接获取dt,  用  //dl[@class="DetailHighlights"]/dd  来直接获取dd.
回复  

使用道具 举报

5#
发表于 1-5-2009 12:22:52 | 只看该作者
js getElementsByTagName( )
回复  

使用道具 举报

6#
发表于 1-5-2009 12:26:35 | 只看该作者
如果你想用js提取,建议你看看Jquery 或者prototype,操作起来比纯js简单很多
回复  

使用道具 举报

7#
发表于 1-5-2009 13:06:01 | 只看该作者
用jquery可以取出class="DetailHighlights"的元素。具体要查查,我不做asp.net了,做cf.net .
回复  

使用道具 举报

8#
发表于 1-5-2009 13:13:14 | 只看该作者
回复  

使用道具 举报

9#
发表于 1-5-2009 13:28:41 | 只看该作者
html 一般都不是wellfrom的,先用tidy formate 然后你可以用XML来取
或者你有pattern,直接用regex来取.........................
回复  

使用道具 举报

您需要登录后才可以回帖 登录 | FreeOZ用户注册

本版积分规则

小黑屋|手机版|Archiver|FreeOZ论坛

GMT+10, 23-4-2025 02:28 , Processed in 0.025332 second(s), 25 queries , Gzip On, Redis On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表