首页 | 本学科首页   官方微博 | 高级检索  
     

利用正则表达式解析新闻网页的算法研究
引用本文:程冲,黄水清. 利用正则表达式解析新闻网页的算法研究[J]. 农业图书情报学刊, 2005, 17(4): 5-8,18
作者姓名:程冲  黄水清
作者单位:南京农业大学,信息科技学院,南京,210095
摘    要:
分析了新闻网页的结构特征,提出了一种利用正则表达式来解析新闻网页的算法,避开了网页清洗算法不易实现的缺点,并对该算法的速度和准确性进行了测评,给出了测评结果。

关 键 词:新闻网页 正则表达式
文章编号:1002-1248(2005)03-0005-04

Study on Algorithm of Analyze News Web Pages by Exploiting the Regular Expression
CHENG Chong,HUANG Shui-qing. Study on Algorithm of Analyze News Web Pages by Exploiting the Regular Expression[J]. Journal of Library and Information Sciences in Agriculture, 2005, 17(4): 5-8,18
Authors:CHENG Chong  HUANG Shui-qing
Affiliation:CHENG Chong,HUANG Shui-qing College of Information Technology,Nanjing Agricultural University,Nanjing 210095,China)
Abstract:
This paper discusses the characteristics of the news web pages, and propounds a algorithm of exploiting regular expression to analyze news web pages, which avoids the disadvantage that it is hard to realize the algorithm of analyzing news web pages. At the same time, it has tested the speed and the accuracy of this algorithm, and then gives the outcome.
Keywords:news web page  regular expression
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号