资讯   |   开发   |   选机中心   |   产品大全 | IBM | 惠普 | 联想 | 戴尔 | 苹果 | 神舟
更多: | 华硕 | 明基 | 方正 | 紫光 | TCL | 夏新 | 联宝 | 宏碁 | 七喜 | 长城 | 清华同方 | 海尔 | 三星 | 东芝 | 索尼 | 富士通 | LG | 技术 | ddnoon
当前位置:笔记本 > 软件开发 >
Advertisement
文章正文

IO操作,选取html里面的显示内容

类型:转载   责任编辑:asp.net   日期:2007/05/23


热门软件下载:


   

我想读取html文件里头显示在浏览器上的内容怎么做啊?

网友回答:

发表者:dyhml

用正则式把<...>过滤掉.

发表者:qm0445

用正则表达试!

发表者:Gavin_22

3.2   HTML处理实例一      
  下面一个任务是分析HTML页面内FONT标记的所有属性。HTML页面内典型的FONT标记如下所示:      
       
  程序将按照如下形式,输出每一个FONT标记的属性:      
       
  在这种情况下,我建议你使用两个正则表达式。第一个如图十一所示,它从字体标记提取出“"face="Arial,   Serif"   size="+2"   color="red"”。      
     
     
  图十一:匹配FONT标记的所有属性  
     
  第二个正则表达式如图十二所示,它把各个属性分割成名字-值对。      
     
     
  图十二:匹配单个属性,并把它分割成名字-值对  
     
  分割结果为:      
       
  现在我们来看看完成这个任务的Java代码。首先创建两个正则表达式字符串,用Perl5Compiler把它们编译成Pattern对象。编译正则表达式的时候,指定Perl5Compiler.CASE_INSENSITIVE_MASK选项,使得匹配操作不区分大小写。      
  接下来,创建一个执行匹配操作的Perl5Matcher对象。      
       
  假设有一个String类型的变量html,它代表了HTML文件中的一行内容。如果html字符串包含FONT标记,匹配器将返回true。此时,你可以用匹配器对象返回的MatchResult对象获得第一个组,它包含了FONT的所有属性:      
       
  接下来创建一个PatternMatcherInput对象。这个对象允许你从最后一次匹配的位置开始继续进行匹配操作,因此,它很适合于提取FONT标记内属性的名字-值对。创建PatternMatcherInput对象,以参数形式传入待匹配的字符串。然后,用匹配器实例提取出每一个FONT的属性。这通过指定PatternMatcherInput对象为参数,反复地调用PatternMatcher对象的contains()方法完成。PatternMatcherInput对象之中的每一次迭代将把它内部的指针向前移动,下一次检测将从前一次匹配位置的后面开始。      
  本例的输出结果如下:      
       
 


 

 
热门推荐笔记本: IBM笔记本
相关文章:
笔记本相关:
IT技术文章:
webmaster:popbb@126.com   最佳浏览:1024X768 MSIE
©2007 popbb.net All Rights Reserved