方略学科导航

中国科学院声学研究所专利：网页信息抽取方法中国科学院声学研究所专利网页信息抽取方法 2023/3/20

中国科学院声学研究所专利：网页信息抽取方法

原文地址

基于UML的软件设计信息抽取及其在重构中的应用 UML 设计信息抽取软件重构面向方面元数据 2010/5/25

运用统一建模语言UML（Unified Modeling Language），提出了一种关系型建模方法，并实现了一个原型系统，能够对UML中蕴含的部分设计信息进行建模与抽取.所得到设计信息能够应用于软件重构及面向方面编程中，能够挖掘设计阶段形成的语义信息，有效地帮助开发人员进行软件重构.

存档附件原文地址

基于UML的软件设计信息抽取及其在重构中的应用 UML 设计信息抽取软件重构面向方面元数据 2010/5/25

运用统一建模语言UML（Unified Modeling Language），提出了一种关系型建模方法，并实现了一个原型系统，能够对UML中蕴含的部分设计信息进行建模与抽取.所得到设计信息能够应用于软件重构及面向方面编程中，能够挖掘设计阶段形成的语义信息，有效地帮助开发人员进行软件重构.

存档附件原文地址

一种改进的基于本体的Web信息抽取信息抽取本体归纳学习 2010/2/10

以Web页面信息项本体定义为基础，对单个样本页面信息项路径进行启发式学习，对所有样本页面集中信息块路径进行归纳学习，识别结构相似的信息块子树位置，以准确划定信息抽取区域，降低页面噪声。将经过噪声处理的样本页面自动解析成页面的结构本体。比较Web页面信息项本体和页面的结构本体，通过归纳学习算法生成抽取规则，提高Web信息的抽准率。

存档附件原文地址

基于数据区域发现的信息抽取规则生成方法抽取规则生成 Web数据区域树匹配 2009/11/26

提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法，以网页DOM 树为基础，自动发现和分离Web数据区域所对应的DOM子树，将其分解为数据记录子树集合，综合数据记录子树的结构特点生成抽取规则。实验结果显示，该方法具有较高的抽取准确率和查全率。

存档附件原文地址

基于隐马尔可夫模型的Web信息抽取信息抽取隐马尔可夫模型扩展DOM树 2009/9/27

针对Web信息抽取领域中存在的“项缺失”和“项无序”问题，提出一种基于隐马尔可夫模型的Web信息抽取方法。将Web文档解析为一棵扩展的DOM树，映射待抽取的信息项为状态，映射待抽取的信息项在扩展DOM树中的路径为词汇，使用归纳算法构造隐马尔可夫模型。实验结果证明该方法可以获得更好的抽取性能。

存档附件原文地址

基于子树广度的Web信息抽取子树广度信息抽取跨库检索 2009/8/7

提出一种新的网页信息抽取方法，基于子树的广度可不加区分地对不同科技文献网站的页面信息进行自动抽取。对大量科技文献网站进行信息抽取实验，已应用到甘肃省科技文献共享平台。实验结果证明，该方法能不依赖科技文献网页的来源而自动地抽取相关信息，并能保证较高的数据抽取回召率和查准率。

存档附件原文地址

基于模板流程配置的Web信息抽取 Web信息抽取模板流程配置包装器 2009/8/6

针对Web信息抽取中存在的包装器构造复杂及抽取精度等问题，提出并实现了一种基于模板流程配置的Web信息抽取框架。将用户请求、访问和获取Web页面的动作进行分解，抽取其中的动作模式，并映射到流程配置模板中的节点。通过流程解析器对用户创建的流程配置XML描述文档进行解析，抽取感兴趣的信息。试验结果表明，系统可快速、准确地实现抽取。

存档附件原文地址

基于重复模式的自动Web信息抽取 Web信息抽取 DOM树重复模式 2009/8/5

互联网上存在很多在线购物网站，抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法，通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容，该方法在抽取过程中不需要人工干预。对10个在线购物网站进行了测试，实验结果表明提出的方法是有效的。

存档附件原文地址

非结构化信息抽取关键技术研究探讨命名实体识别共指消解机器学习 2009/7/22

以基于内在认知机理的知识发现理论为指导，针对汉语命名实体识别的难点，充分考虑专家知识在命名实体识别中的作用；根据不同的实体类型，采用灵活变化的统计与规则相结合的方式；采用各种技术来研究信息抽取的任务，如：机器学习技术、篇章分析与理解技术、句法分析技术、图算法与图挖掘技术、词计算技术、快速全文检索技术等；该文探讨的是不仅要从文本中获取简单子句中的关系，还要获得跨句子、段落中的实体关系。

存档附件原文地址

混合遗传算法和隐马尔可夫模型的Web信息抽取 Web信息抽取 Baum-Welch算法最大似然算法 2009/7/21

传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数。提出了一种使用遗传算法优化HMM模型参数的Web信息抽取混合算法。该算法使用实数矩阵编码表示染色体，似然概率值为适应度取值，将GA与Baum-Welch算法相结合对HMM模型参数进行全局优化，并且调整GA-HMM的Baum-Welch算法参数实现Web信息抽取。实验结果表明，新的算法在精确度和召回率指标上比传统...

存档附件原文地址

基于规则归纳的信息抽取系统实现抽取规则 DOM 学习算法 2009/7/17

面对Web信息的迅猛增长，信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型（DOM）解析以及检索、抽取、映射等规则的定义，设计并实现了一种具有规则归纳能力的信息抽取系统，用于Web信息的自动检索。在用于抽取规则归纳的框架下，还重点对用于生成抽取模式的WHISK学习算法进行了实验对比分析，结果表明系统对于单槽和多槽数据都具有不错的归纳学习能力。

存档附件原文地址

基于框架语义标注的自由文本信息抽取研究信息抽取框架语义抽取规则 2009/7/17

信息抽取是从自由文本语料库构建数据库，实现信息自动收集的有效途径之一。提出了一种以框架语义标注为基础构建信息抽取规则的信息抽取方法。基于框架语义标注的信息抽取是用统一的方法来指导信息抽取过程。这种方法具有较细的处理粒度，对语义规则性强的领域有一定的普遍适用性。设计了基于框架语义的BAIE（图书内容简介信息抽取）系统，并对图书的内容简介试行信息抽取。抽取结果表明，基于框架语义的信息抽取方式有一定的可...

存档附件原文地址

基于模板化的Blog信息抽取博客信息抽取模板 2009/7/17

Blog（博客）可以称为在线个人日志。作为一种新兴的媒体，Blog目前已经成为一种在Web上表达个人观点和情感的一种非常流行的方式。那么如何从Blog中快速准确地抽取有用的信息（话题发布时间、话题题目、话题内容、评论内容等）就成为了Blog应用中一个非常重要的步骤。提出了一种基于模板化的Blog信息抽取方法，该方法通过分析Blog网站的HTML源代码，然后提取出网站的模板，并根据该模板对Blog网...

存档附件原文地址

节点频度和语义距离相结合的网页正文信息抽取信息提取节点频度语义距离 2009/7/15

提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型（Block node Frequency-Document Object Module），并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型，再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑：在同源的网页集合内噪音节点的频度值很高；正文信息一般由非链接文字组成；与正文相关的...

存档附件原文地址

中国研究生教育排行榜-条

中国学术期刊排行榜-条

世界大学科研机构排行榜-条

中国大学排行榜-条

人　物-篇

课　件-篇

视听资料-篇

知识库-篇

研招资料 -篇

知识要闻-篇

国际动态-篇

会议中心-篇

学术指南-篇

学术站点-篇

中国研究生教育排行榜-条

中国学术期刊排行榜-条

世界大学科研机构排行榜-条

中国大学排行榜-条

人 物-篇

课 件-篇

视听资料-篇

知识库-篇

研招资料 -篇

知识要闻-篇

国际动态-篇

会议中心-篇

学术指南-篇

学术站点-篇

人　物-篇

课　件-篇