共查询到19条相似文献,搜索用时 289 毫秒
1.
针对基于Web页面信息本体的信息抽取中,需人工根据待抽信息项的概念和对应的实例值来建立本体的缺点,设计一个页面信息本体的自动学习方法。论文利用前期在基于DOM的页面相似路径归纳学习算法和基于PAT-tree的自动关键词识别算法上的研究成果,使用改进的TF·IDF统计方法和复合事件的关联规则算法完成概念和概念间关系的学习,建立页面信息本体,减少建立本体的人工工作量。 相似文献
2.
传统基于本体的Web页面信息抽取以单个信息项为最小抽取单位,抽取出的实体语义关联性较差和抽取准确率不理想。针对上述问题,以微博领域本体为基础,提出了一种两层次匹配的用户信息抽取方法:将微博中具有语义关联的不同层次的用户信息划分成对应信息块,以信息块作为最小抽取单位分别抽取其中包含的用户各属性信息(包含个人信息、关注的好友信息和所发文本微博信息)。试验结果证明,与传统信息抽取方法相比,设计的抽取规则算法能够有效地提高信息的准确率和召回率,对微博页面结构复杂以及信息量大的Web网页有良好的抽取效果。 相似文献
3.
如何从互联网Web页面中快速、准确获得用户感兴趣的数据内容成为信息抽取领域的研究热点.本文总结现有Web信息抽取分类方法,并提出按用户参与程度对Web信息抽取系统进行分类的方法,分为人工创建系统、用户监督系统和无人监督系统,并从7个方面对Web信息抽取系统进行分析、比较. 相似文献
4.
5.
Deep Web信息是隐藏在Web服务器中可搜索的数据库信息资源,其信息量远比表面web信息量大。将Deep Web信息查询的接口模式集成为统一的查询接口,将极大地提高web信息检索的查全率和查准率。讨论了查询模式集成问题的聚类分析方法,相对于直接对Deep Web数据源的进行集成,对查询模式加以集成的思路成本更低。 相似文献
6.
7.
互联网有着浩瀚的信息.如何高效、准确获取想要的信息是一个重要的问题,本文将信息获取技术分两个部分来进行,即资源发现模块和信息抽取模块,并基于此构建了一个信息自动获取平台.对于资源发现模块,主要在如何能够从广度和深度两个方面去发现资源提出了一种新的搜索算法,同时利用了多Agent技术实现了分布式的资源发现.对于信息抽取模块,提出了一种新的抽取规则表示方法,提高了在信息抽取过程中规则的适应性. 相似文献
8.
B/S模式的农业信息远程查询的ASP实现方案 总被引:3,自引:0,他引:3
探讨了ASP技术在开发基于Web技术的信息查询系统中的重要作用,分析了ASP脚本在服务器端的解释与执行;详细说明了基于Internet/Intranet的信息查询系统的设计过程与实现方法。 相似文献
9.
《山东省农业管理干部学院学报》2017,(5):41-46
事件抽取是信息抽取领域的重要研究方向,针对目前网页文档中文事件抽取的关键问题,提出利用开源的通用文本处理框架(GATE)进行中文事件抽取的方法,设计GATE中文事件处理流程,开发GATE插件,解决中文分词与词性标注、领域词典、中文抽取规则设计等关键技术,实现了中文事件的类型识别和元素抽取。并以四类政治事件为例,进行中文事件抽取实验。实验结果表明,基于GATE的中文事件抽取具有良好的通用性,能够取得了较好的抽取效果。 相似文献
10.
以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。 相似文献
11.
12.
基于知识规则的马尾松林遥感信息提取技术研究 总被引:1,自引:0,他引:1
由于遥感信息提取精度的限制,使得遥感技术在林业领域的应用受到了制约.为了提高林业遥感信息提取精度,该文对遥感信息提取的3个关键技术环节即训练样区的选取、分类特征波段的选择及分类器的训练进行了研究,建立了基于知识规则的信息提取方法和流程. 应用该方法,以浙江省富阳市为研究区,进行了马尾松林信息提取,精度达到了80.5%,比最大似然法提高了近20%. 实例研究表明,该信息提取方法较为有效,尤其是在树种信息提取方面具有一定的研究和应用潜力,同时也为浙江地区应用遥感技术研究虫害提供了一定的技术支持. 相似文献
13.
土壤溶解性有机质(Dissolved Organic Matter)是土壤溶液的一个重要的组成部分,在土壤的化 学和生物过程中起着很重要的作用。在过去的二十多年里,就DOM的组成和其在土壤中的作用已经 得到很大程度的重视且取得了相当大的进步。DOM可能会对重金属有很显著的控制作用,而重金属 也可能对DOM有种特殊且强烈的亲和性,这种亲和性在很大程度上影响着土壤中重金属的活性和 环境生态,而且不同来源和不同提取方法提取的DOM在功能上有着差异。系统评述了DOM的来源、 结构、生态功能以及对重金属活性的影响,同时介绍了一些未来有待解决的问题。 相似文献
14.
[目的/意义]为实现文献资源的细粒度组织,满足用户日趋精准的信息服务需求,研究提出一种基于PDF版式特征的文献篇章结构细粒度自动抽取方法。[方法/过程]方法充分利用机器学习在信息分类方面的优势,针对非结构化的PDF文档,基于其版式特征对章节标题进行自动分析、识别与抽取。根据章节标题的坐标定位,将正文内容以段落为最小颗粒度自动匹配至所属标题的下级位置,最终实现文档全文结构的细粒度抽取和重组。[结果/结论]经实测,机器自动抽取平均正确率达80%,针对非结构化PDF文档的细粒度抽取工作具有较好的现实意义和应用前景,基于底层方法设计构建的数据处理系统现已投入实际应用,大幅解放人工进行篇章结构细粒度抽取的工作。 相似文献
15.
16.
中国经济真菌查询系统的研建 总被引:2,自引:0,他引:2
基于真菌特点及ASP(Active Server Page)技术和WEB技术,设计了中国经济真菌查询专业网站.本系统集远程信息查询、修改、添加、删除于一体,包含真菌基础知识、基本原理介绍、真菌发育形态动画演示等内容.查询操作简单、功能强大、结果丰富,可以满足各个阶层人员不同的专业需求.查询方式包括分类查询、综合查询(模糊查询)、拉丁文查询、分支查询、分布查询、常见种类查询、原理查询等.本系统的开发方法适用于极其广泛的农业基础数据库的建设. 相似文献
17.
18.
三峡库区农业信息化平台的核心是农业信息化多媒体数据库系统的架构。通过对农业信息化平台的需求分析,提出在.NET平台下多媒体数据库的设计思想,阐述了多媒体数据库中主要表的设计和多媒体数据关联。实现了农业信息化平台中表的关联和多媒体Web数据库中数据的查询。 相似文献
19.
准确提取单木树冠边界是获取森林数量参数的重要基础,是高分辨率遥感图像林业应用的技术难题。基于DOM航空影像数据源,采用面向对象的方法对研究区内的2个树种的林分进行了单木树冠边界提取研究。首先利用桉树和杉木的空间分布矢量数据对DOM航空影像进行掩膜处理,在掩膜区域内进行多层次多尺度图像分割得到初步树冠分割结果,并剔除非树冠信息;再以树冠信息种子对象为基础,使用区域增长算法对树冠信息种子对象增长得到单木树冠范围;最后使用形态学滤波的方法优化单木树冠边界,完成林区内桉树和杉木两类树种的单木树冠边界提取。结果表明,由于不同树种的树冠存在尺度和形态差异,进行单木树冠分割时需要设置不同的参数才能到达较好的分割效果。本研究中桉树和杉木的单木树冠提取总体精度分别为86.75%与89.21%,可满足林业部门获取森林单木树冠的精度需求。 相似文献