工学 >>> 计算机科学技术 >>> 计算机应用 >>> 中国语言文字信息处理 >>>
搜索结果: 1-15 共查到中国语言文字信息处理 文本相关记录35条 . 查询时间(0.151 秒)
2021年7月24日下午,“傅璇琮学术讲座”第二十四讲在清华大学蒙民伟人文楼124室举行。应清华大学中文系邀请,清华大学政治学系副教授胡悦作了题为“计算机辅助文本分析概论”的主题讲座。此次讲座由清华大学中文系副教授李飞跃主持,北京邮电大学人文学院武永老师及数十名校内外师生出席。
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(text clustering based on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来...
提出了一种基于混沌Logistic 映射和斜帐篷映射的文本hash函数算法。该算法将明文信息分组并转换为相应的ASCII码值,然后把该值作为Logistic映射的迭代次数,迭代生成的值作为斜帐篷映射的初始值进行迭代,然后依据一定的规则从生成值中提取长度为128 bit的hash值。通过仿真对该算法的单向性、混乱与扩散、碰撞等性能进行分析,理论分析和仿真实验证明该算法可以满足hash函数的各项性能要...
为解决现有软件漏洞分类重叠性和实用性低等问题,提出了在漏洞实例聚类基础上的漏洞分类方法。对漏洞数据库(national vulnerability database, NVD)的漏洞描述字段进行文本聚类,并且使用聚类重叠性指标评估Simplekmean、BisectingKMeans和BatchSom聚类算法的效果,依据领域主导度选择典型的漏洞类型。实验结果显示近NVD中四万条漏洞数据聚类成45类...
针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering algorithm using semantic list)。该算法采用语义列表表示文本,一个文本的语义列表中的词是该文本中出现的词,从而降低了数据维数,且不存在稀疏问题;同时利用词语间的相似度计算解...
由于网络评论用语的多样性,常用的文本主题分类方法并不能完全适应情感倾向识别。针对这个问题,从语义理解的角度出发,提出一种基于语义特征的情感倾向识别方法,通过增加语义特征使得原始文本表现出更加明确的情感倾向,并且更加容易区分。实验结果表明了该方法的有效性。
针对当前知识管理系统中知识树的创建和维护问题,设计了一种新的基于文本聚类的知识树构建方法。由于从传统的K-means和SOM等文本聚类的结果中难以提取知识树中节点对应的概念和词汇列表,选取PLSA方法进行聚类和知识层次树构建。实验表明,新方法除了在聚类精确度上优于传统方法,聚类结果还包含文档的主题与词汇之间的概率关系,因此新方法在聚类的同时,可以方便地提取知识树上每个节点对应的概念或概念集合。
针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使用调整后的矩阵进行线性重建从而实现数据降维;针对半监督LLE中使用欧氏距离的缺点,采用高斯核函数将欧氏距离进行变换,并用新的核距离取代欧氏距离,提出了基于核的半监督局部线性...
提出了将语言计量研究成果应用于文本聚类研究的方法。通过两个50万词的语料样本发现了在现代汉语口语体和书面语体中具有显著分布差异的16个语言结构特征;以其中7个作为文本表示特征准确地将实验文本聚类为口语体(相似度89.84%)和书面语体(相似度86.93%)两类。以语言结构的计量特征表示文本的方法加强了聚类/分类研究的可解释性,具有较高的理论和应用价值。以语料库和统计方法进行语体特征计量研究是汉语语...
在分析灾害新闻特点的基础上,提出一种基于文本挖掘的话题发现技术,采用基于平均分组的层次聚类算法,对灾害新闻资料进行组织,从而生成新闻专题,为用户提供个性化服务,并形成专题检测系统,同时介绍基于时间和地点权值向量的相似度计算模型以及基于时间的动态阈值模型。实验结果表明,该算法能够获得较好的性能。
使用Logistic回归模型进行中文文本分类,通过实验,比较和分析了不同的中文文本特征、不同的特征数目、不同文档集合的情况下,基于Logistic回归模型的分类器的性能。并将其与线性SVM文本分类器进行了比较,结果显示它的分类性能与线性SVM方法相当,表明这种方法应用于文本分类的有效性。
文本聚类是当前文本信息挖掘的基础和研究的重点。给出一种新的文本聚类方法,它将概念格和复杂网络有机地结合起来,以达到更优的聚类效果。首先计算关键词特征权值并对特征向量进行降维处理,然后根据关键词权值大小映射到形式背景中,通过本文所给出的新的相似度公式,计算出形式背景中概念相似度的大小,从而构造GN网络并应用GN算法进行文本概念聚类。最后通过实例,验证了方法的可行性。
文本的形式化表示一直是信息检索领域关注的基础性问题。向量空间模型(Vector Space Model)中的tf.idf文本表示是该领域里得到广泛应用,并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一。但是其IDF的计算,并没有考虑到特征项在类间的分布情况,也没有考虑到在类内分布相对均匀的特征项的权重应该比分布不均匀的要高,应该赋予其较高...
通过对A Farewell to Arms中章节值和文本召回率值拉锯式攀升状态的分析,验证了文本排歧语义图式的正确性和相关性:具有读者参与的文本歧义推动了情节的发展,而这种推动源自于读者期待和文本顿悟点自动匹配的顺序性和读者纠错控制的选择性。
文本信息隐藏技术可应用于数字媒体版权和完整性保护.自然语言文本经词性标注处理后变换为词性标记序列,提出了利用序列逆序数奇偶性隐藏信息的算法.证明了逆序数奇偶性在序列符号对换、增加和删除变换下的性质.根据隐藏信息的要求,先对词性标记序列做适当变换,再在变换后的词性标记序列指导下修改自然语言句子,从理论上保证了可行修改的存在性,并能避免直接在自然语言句子层面上做修改的盲目性.

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...