搜索结果: 1-15 共查到“计算机科学技术 文本分类”相关记录64条 . 查询时间(0.151 秒)
面向文本分类的中文文本语义表示方法
分类 知识表示 相似度 文本语义图
2013/4/20
为了解决词频统计文本表示方法中词语间语义信息缺失的问题,在考虑文本中词语上下文语境和语义背景信息的基础上,提出了一种新的中文文本表示模型——文本语义图.该方法利用维基百科作为知识背景计算文本中实意特征词语的语义关联,将具有较强语义关系的词语合并成词包作为图的节点,节点权值用词包所包含词语的数目及词频计算; 不同词包中词语间的上下文关系作为图的有向边,有向边权值用其邻接节点的最大权值表示.该模型在较...
流形学习算法在中文文本分类中的应用
流形学习 LLE算法 MLLE算法 中文文本分类
2012/5/6
传统的流形学习局部线性嵌入 (locally linear embedding, LLE) 算法通过欧氏距离来选择邻域,如果数据集选自多个类别,这种距离度量方法无法得到正确的邻域关系。本研究提出一种改进的局部线性嵌入 (modified LLE,MLLE) 算法,该算法通过改进距离矩阵,使得类间的距离大、类内的距离小,从而使得邻域的选择尽量在一个类中。将MLLE算法应用到中文文本分类中,结果表明:...
由于一个类别在层次树上可能存在多个镜像,基于层次树来进行分类可能会导致不一致性。一种自然的解决方法是采用图结构来描述类别关系,在现实生活中人们实际的描述方式也是如此。鉴于此,提出了一种直接基于图的层次多标记分类方法,称为GraphHMLTC。该方法利用有向无圈图的拓扑排序而非树的自顶向下的层次关系来确定类别之间的分类顺序,并且该拓扑序根据分类情形进行动态维护。实验表明,采用层次图分类的GraphH...
基于主题的中文短信文本分类研究
短信文本 KNN算法 主题句
2010/2/10
根据中文短信文本分类的特点,提出同义概念归并、上下位概念的聚焦以及短信文本重点词汇的确定方法,利用主题句选取算法获取短信文本的主题,采用KNN算法将短信文本的主题进行分类。仿真实验结果表明,该算法能够有效提高短信文本的分类速度。
提出了一种没有训练集情况下实现对未标注类别文本文档进行分类的问题。类关联词是与类主体相关、能反映类主体的单词或短语。利用类关联词提供的先验信息,形成文档分类的先验概率,然后组合利用朴素贝叶斯分类器和EM迭代算法,在半监督学习过程中加入分类约束条件,用类关联词来监督构造一个分类器,实现了对完全未标注类别文档的分类。实验结果证明,此方法能够以较高的准确率实现没有训练集情况下的文本分类问题,在类关联词约...
一种基于文本分类的知识树自动构建方法
概率潜在语义分析 潜在语义空间 知识管理 知识树
2010/2/1
针对当前知识管理系统中知识树的创建和维护问题,设计了一种新的基于文本聚类的知识树构建方法。由于从传统的K-means和SOM等文本聚类的结果中难以提取知识树中节点对应的概念和词汇列表,选取PLSA方法进行聚类和知识层次树构建。实验表明,新方法除了在聚类精确度上优于传统方法,聚类结果还包含文档的主题与词汇之间的概率关系,因此新方法在聚类的同时,可以方便地提取知识树上每个节点对应的概念或概念集合。
从可信计算角度,提出一种可靠信任推荐文本分类特征权重算法,分析了特征在文档中的特性,基于Beta分布函数研究了特征与文档类之间的信任关系,建立特征权重计算模型,并实现简单高效的线性文本分类器。在比较实验中采用20newsgroup和复旦中文语料集。与TFIDF算法进行性能比较,实验结果显示该算法性能较TFIDF显著提高,并对非平衡语料具有良好的适应性。
中文文本分类中利用依存关系的实验研究
依存关系 短文本 文本分类
2010/1/28
为了利用依存关系进行短文本分类,研究了利用依存关系进行短文本分类存在的四个关键问题。分别在长文本语料集和两个短文本语料集上,抽取具有依存关系的词对,并利用这些词对作为特征进行分类实验。实验结果表明:依存关系能够作为有效的特征进行文本分类,并能够改善文本分类的性能;单独把依存关系作为特征,不能提高短文本的分类性能;可以利用依存关系作为特征扩充的手段,增加短文本的特征,增强短文本的描述能力,进而进行有...
针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使用调整后的矩阵进行线性重建从而实现数据降维;针对半监督LLE中使用欧氏距离的缺点,采用高斯核函数将欧氏距离进行变换,并用新的核距离取代欧氏距离,提出了基于核的半监督局部线性...
一种改进的文本分类特征选择方法
文本分类 特征选择 信息增益
2009/12/30
文本分类中特征空间的高维问题是文本分类的主要障碍之一。特征选择(Feature Selection)是一种有效的特征降维方法。现有的特征选择函数主要有文档频率(DF),信息增益(IG),互信息(MI)等。基于特征的基本约束条件以及高性能特征选择方法的设计步骤,提出了一种改进的特征选择方法SIG。该特征选择方法在保证分类效果的同时,提高了对中低频特征的偏向。在语料集Reuters-21578上的实验...
面向不均衡类别朴素贝叶斯犯罪案件文本分类
朴素贝叶斯 犯罪挖掘 多变量贝努里模型
2009/12/28
针对案件文本的特点,提出了具有针对性的特殊文本预处理方法,并比较了两种有效的特征选择方法。针对案件类别分布不均衡的特点,提出了改进的多变量贝努里模型。实验结果表明,改进的多变量贝努里模型有效地提高了案件文本分类的准确率。
Markov逻辑网及其在文本分类中的应用
统计关系学习 机器学习 Markov逻辑网
2009/11/30
介绍了Markov逻辑网的理论模型、学习算法和推理算法,并将其应用于中文文本分类中。实验结合了判别式训练的学习算法,MC-SAT、吉布斯抽样和模拟退火等推理算法,结果表明基于Markov逻辑网的分类方法能够取得比传统K邻近(KNN)分类算法更好的效果。
iRIPPER——一种改进的基于规则学习的文本分类算法
文本分类 RIPPER hRIPPER 层次特征选择 噪音特征项 过滤
2009/11/19
基于规则学习的文本分类算法RIPPER具有易理解、易优化、高效率等特点,但是当规则所涉及的特征项很多的时候,上述优点不复存在。基于层次的规则学习算法hRIPPER采用了层次架构对RIPPER进行了改进,但其对特征项的过滤仍然有限。针对RIPPER,hRIPPER在规则学习过程中出现的问题,对规则学习的分类算法进行改进,提出了一种改进的基于规则学习的文本分类算法iRIPPER,在规则学习的同时进...