搜索结果: 151-165 共查到“知识库 自然语言处理”相关记录312条 . 查询时间(3.937 秒)
贝叶斯文本分类器的研究与改进
贝叶斯文本分类 数据稀疏 平滑
2009/7/24
朴素贝叶斯文本分类是目前公认的一种简单有效的概率分类方法,但该方法的数据稀疏问题以及所采用的Laplace平滑方法还不是最优,存在一定的缺陷。因此,用一元统计语言模型的平滑方法来改进数据稀疏状况,提高了分类效果。
参数嵌入算法在文本分类可视化中的应用
文本分类 后验概率 分类可视化
2009/7/23
如何对文本分类的结果进行可视化研究一直是模式识别中研究的重点。在假设文本类别在低维嵌入空间服从高斯分布的前提下,通过朴素贝叶斯分类算法得到数据类别属性的后验概率矩阵,然后运用参数嵌入算法在低维空间可视化文本分类结果。参数嵌入算法是使嵌入空间数据的类后验概率与高维空间的条件概率Kullback Leibler散度和最小化的算法,属于同一类的数据在低维空间中分布较为集中,性质相似的数据之间的距离较近,...
操作风险等级预测的朴素贝叶斯方法研究
朴素贝叶斯分类器 丢失数据 Gibbs抽样
2009/7/23
操作风险数据积累比较困难,而且往往不完整,朴素贝叶斯分类器是目前进行小样本分类最优秀的分类器之一,适合于操作风险等级预测。在对具有完整数据朴素贝叶斯分类器学习和分类的基础上,提出了基于星形结构和Gibbs sampling的具有丢失数据朴素贝叶斯分类器学习方法,能够避免目前常用的处理丢失数据方法所带来的局部最优、信息丢失和冗余等方面的问题。
词间相关性在贝叶斯文本分类中的应用研究
事件相关 相关度 文本分类
2009/7/23
针对朴素贝叶斯分类的属性独立性假设的不足,讨论了相关性及多变量相关的概念,给出词间相关度的定义。在TAN分类器的词间相关性分析基础上,提出一种文档特征词相关度估计公式及其在改进朴素贝叶斯分类模型中应用的算法,在Reuters-21578文本数据集上的实验表明,改进算法简单易行,能有效改进贝叶斯分类性能。
对象族拓扑约束求解的研究
对象族 拓扑约束 布尔约束
2009/7/23
针对当前对象族模型在求解拓扑约束时存在的缺陷,提出一种求解拓扑约束的新方法,这种方法在求解拓扑约束时,把拓扑约束映射为布尔约束满足问题,通过用SAT求解器求解布尔约束来求解拓扑约束。实践证明,该方法不仅直接关联与拓扑约束指定的特征的语义,而且当模型中存在大量相交的特征时也是可行的,提高了拓扑约束求解的效率。
多层的贝叶斯网络检索模型
术语相似度 信息检索 同义词
2009/7/23
利用术语相似度将同义词间的相似程度数量化,以此量化关系对用于信息检索的简单贝叶斯网络进行若干改进,构造一个四层贝叶斯网络检索模型。给出新模型的拓扑结构、各层节点详尽的概率估计以及文档检索与推理过程。最后,对新模型进行评估,结果表明该模型可以有效地提高检索性能,在一定程度上实现基于语义的信息检索,这正是目前信息检索发展的必然趋势。
二元语法中文分词数据平滑算法性能研究
数据平滑 中文分词 二元语法
2009/7/22
将多种平滑算法应用于基于二元语法的中文分词,在1998年1月人民日报语料库的基础上,讨论了困惑度和实际分词性能之间的关系,对比分析各平滑算法的实际性能,结果表明,简单的加值平滑算法性能最优,封闭精度、召回率分别为99.68%、99.7%,开放精度、召回率为98.64%、98.74%。
改进的χ2统计文本特征选择方法
文本分类 特征选择 χ2统计
2009/7/22
特征选择是当今研究领域的一个热点,尤其是文本分类领域中的热点。针对χ2统计方法的两个缺陷:降低了低频词的权重和提高了很少在指定类中出现但普遍存在于其他类的特征在该类中的权重,对χ2统计方法进行改进,并通过做模拟和对比实验,对比改进前后的方法对文本分类的影响。在模拟和对比实验中,改进后方法的分类效果要好于传统的方法。
改进的本体语义相似度计算方法
语义距离 信息量 共同分离祖先
2009/7/22
概念的语义相似度研究,是知识表示以及信息检索领域中的一个重要内容。通过分析两种传统的语义相似度计算方法,对它们存在的问题进行改进,提出了一种综合的基于本体的概念语义相似度计算方法。该方法结合本体的DAG网状结构特征和语义距离计算中的多种语义影响因素,充分利用本体中概念的语义来计算概念间的语义相似度。实验结果比较合理,验证了该方法的有效性。
概念与文档的语义相似度计算
概念相似度 文档相似度 本体
2009/7/22
将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计算的基础之上。在概念相似度的计算过程中引入了语义相似度矩阵以及基于共信息理论的模糊相似度方法。
哈萨克语词法分析器的研究与实现
有限状态自动机 双向匹配 全切分
2009/7/22
研究了哈萨克语自动词法分析中的附加成分的切分和词干提取问题,并实现了哈萨克语词法分析系统KazStemmer。系统首先对待切分词使用有限状态自动机进行分析。如果成功则将输出作为切分结果,否则再使用双向全切分和词法分析相结合的改进方法来进行切分。与最大匹配法相比,该方法提高了词干提取的正确率和切分速度。同时,在词干表的搜索中首次采用了改进的逐字母二分词典查询机制来提高了词干提取的效率。
...
基于CCIPCA和ICA降维的文本分类研究
特征降维 独立成分分析 支持向量机
2009/7/21
文本分类中采用向量空间模型来表达文本特征,维数巨大,关键是对高维的特征集进行降维处理,而一般的分解算法无法处理大规模的高维问题。采用CCIPCA与ICA相结合的特征提取方法可以有效地实现文本特征降维。实验结果表明降维提高了分类器的效率和效果。
基于HowNet的句子褒贬倾向性研究
语义距离 语法距离 倾向性识别
2009/7/21
文本倾向性识别在信息过滤、自动文摘、文本分类等领域有广泛的应用前景。句子倾向性研究是文本倾向性识别的基础,结合句法分析结果和词语语义倾向性可以衡量句子褒贬倾向性。以HowNet的词汇语义相似度计算为基础,提出了基于的语义距离和语法距离的句子褒贬倾向性计算方法。大量语句实验表明,该方法的计算结果与人工判别结果更接近。
基于超球支持向量机的兼类文本分类算法研究
支持向量机 超球 兼类
2009/7/20
针对兼类文本,提出了一种分类算法。对属于同一类别的文本,利用超球支持向量机在特征空间中求得一个能包围该类尽可能多文本的最小超球,使各类文本之间通过超球分隔开,达到分类效果。对待分类文本,计算它到各超球球心的距离,根据距离判定该文本所属的类别。实验结果证明,该算法不仅具有较快的分类速度,而且具有较高的分类精度。