搜索结果: 106-120 共查到“知识库 自然语言处理”相关记录314条 . 查询时间(1.859 秒)
A Compact Forest for Scalable Inference over Entailment and Paraphrase Rules
Compact Forest Scalable Inference over Entailment Paraphrase Rules
2009/10/20
A large body of recent research has been investigating the acquisition and application of applied inference knowledge. Such knowledge may be typically captured as entailment rules, applied over syntac...
基于逻辑行和最大接纳距离的网页正文抽取
信息抽取 网页正文 逻辑行
2009/10/10
网页正文抽取是很多互联网应用的基础工作和必须解决的问题。目前的主流方法是基于DOM树结构,此方法需要解析出网页的DOM树结构。对于目前互联网上的网页来源众多、结构众多的情形,基于DOM树的处理方法除了性能不足以外,还会遇到抽取精度上的问题。针对这些问题,该文提出了一个网页正文抽取的新方法,该方法不依赖DOM树,而是考虑人们编写网页的方式形成一些启发式规则,并结合相关的统计规律,以逻辑行为基本处理单...
基于语义的信息检索模型
信息检索 相似度 向量空间模型
2009/10/10
由于查询与文档中词语的不匹配现象导致一些相关的文档不能被成功地检索出来,在信息检索的研究与实现中,这是影响检索效果的一个很关键的问题。把概念图和知网结合起来,提出对应的相关反馈算法,重新计算词项权重,利用向量空间模型和语义相似度进行语义检索,并给出了语义检索模型。实验结果显示该方法取得了良好的效果。
基于语义相似度的自动文摘评价方法
自动文摘 评价方法 概率潜在语义分析
2009/10/10
针对现有自动文摘内部评价方法存在主观性强,无法体现深层语义的缺陷,提出利用概率潜在语义分析计算原文和待评价摘要在潜在语义上的贡献,通过相似度的比较,得出符合原文语义的文摘。整个评价方法无需人为干预,实验表明,基于语义相似度的评价方法实现简单、效果稳定,是一种更接近自然模型的评价方法。
基于最大熵模型的语义块切分
最大熵模型 语义块 概念层次网络
2009/10/10
语义块切分是HNC理论的重要课题,与以往的处理策略不同,采用统计建模的方法来解决这一问题。采用词语、词性、概念等信息组成特征模板,并应用增量方法进行特征选择,构建了一个基于最大熵模型的语义块切分系统。在HNC标注语料库上的测试取得了较好的效果,开放测试的正确率和召回率分别达到了83.78%和91.17%。
垃圾邮件处理中LDA特征选择方法
垃圾邮件过滤 一种话题模型(LDA) 特征选择
2009/10/10
垃圾邮件处理是一项长期研究课题,越来越多的文本分类技术被移植到垃圾邮件处理应用当中。LDA(Latent Dirichlet Allocation)等topic模型在自动摘要、信息获取和其他离散数据应用中受到越来越多的关注。将LDA模型作为一种特征选择方法,引入垃圾邮件处理应用中。将LDA特征选择方法与质心+KNN分类器结合,得到简单的测试用垃圾邮件过滤器。初步实验结果表明,基于LDA的特征选择方...
面向中文文本分类的C4.5Bagging算法研究
Bagging算法 C4.5算法 中文文本分类
2009/10/10
对于中文文本分类问题,提出一种新的Bagging方法。这一方法以决策树C4.5算法为弱分类器,通过实例重取样获取多个训练集,将其结果按照投票规则进行合成,最终得到分类结果。实验证明,这种算法的准确率、查全率、F1值比C4.5、kNN和朴素贝叶斯分类器都高,具有更加优良的性能。
日语文本语义接受度评价研究
粘着语 信息检索 语料库
2009/10/10
基于日语料库的粘着语文本语义接受度(SAS)研究分三步展开。首先提取『ゆきぐに』为分析文本,以等距离系统随机抽样方法取得6对比组。然后在屈折语SAS研究基础上提出适用于粘着语文本的词长定义,即百词所含5音拍及以上词数为超常用词量。最后得出结论:抽取间距由大变小引发抽取率(SR)由小变大的曲线变化;依次攀升的SR与围绕均值波动的SAS组图证明两者的非关联性,以实例验证了屈折语SAS评价公式对粘着语文...
英日语料库语义接受度对比研究
语料库 自然语言 语义接受度
2009/10/9
基于语料库的语义接受度(SAS)研究是在线衡量文本理解程度的可行性方法。在大规模真实文本语料的基础上,利用赋值限域方法进行英日文本对照研究。并通过分析不同赋值区间对英日小说文本语义接受度进行解读。经过验证的语义接受度公式证明了文本理解与词汇密度(P1,P2)、词长(H)和句长(L)相关,即SAS=P2/[P1×0.4×(L+H)],而且不同的抽取率不会引起评价值的显著差异。此公式为文学研究者借助网...
改进的基于知网词汇语义褒贬倾向性计算
语义相似度 倾向性识别 知网
2009/9/30
词汇语义褒贬倾向性研究是句子褒贬倾向性识别的基础,而句子褒贬倾向性识别又是文本倾向性识别和篇章结构褒贬倾向性识别的基础。以《知网》的词汇语义相似度计算为基础,针对目前采用计算基准词对与词汇相似度的方法识别词汇褒贬倾向性理论,从褒贬基准词和计算公式入手,提出了改进办法。实验证明,在同样基准词对下,准确率得到了很大的提高,达到98.94%,具有实际应用价值。
面向文档分类的LDE和简化SVM方法研究
文档分类 局部鉴别嵌入 简化支持向量机
2009/9/30
为了快速准确地对文档进行分类,提出了一种基于局部鉴别嵌入LDE和简化SVM的高效文档分类算法。该算法首先利用LDE算法把高维文档数据投影到低维特征空间,然后在低维特征空间利用精简SVM进行分类。实验结果表明该算法具有分类准确率高和运行速度快的优点。
基于本体的概念语义相似度度量
本体 语义相似度 信息量
2009/9/27
针对概念语义相似度度量问题,提出结合基于图理论和信息量2种方法的语义相似度度量算法。计算2个概念在概念图中连接的路径长度、局部密度以及在连接2个概念之间的路径上连接关系的连接力度,结合连结路径权重和信息量来度量概念之间的语义相似度。实验结果表明,该算法能取得较好的度量效果。
基于规则挖掘和Naive Bayes方法的组合型歧义字段切分
规则挖掘 Naive Bayes方法 组合型 歧义字段切分
2009/9/18
组合型歧义字段切分是中文自动分词的难点之一。在对现有方法进行深入分析的基础上,提出了一种新的切分算法。该算法自动从训练语料中挖掘词语搭配规则和语法规则,基于这些规则和Naive Bayes模型综合决策进行组合型歧义字段切分。充分的实验表明,相对于文献中的研究结果,该算法对组合型歧义字段切分的准确率提高了大约8%。
基于期待类型的Chart句法分析算法
自然语言处理 句法分析 Chart
2009/9/18
Chart算法是目前句法分析中应用最广泛的算法之一,但该算法的计算效率仍有待提高。通过对两种常用Chart算法的分析,提出一种以由底向上的Chart算法为基础,结合自顶向下Chart算法的预测能力的算法。算法按严格从左到右、由底向上的方向进行,根据已有活动边的活动角色类型和句法规则,产生当前词位置上的期待类型表,并以此限制后续边的生成。对比实验的结果表明,分析速度较普通Chart算法提高了约24%...