工学 >>> 计算机科学技术 >>> 计算机科学技术基础学科 人工智能 计算机系统结构 计算机软件 计算机工程 计算机应用 计算机科学技术其他学科
搜索结果: 1-15 共查到知识库 计算机科学技术 数据集相关记录25条 . 查询时间(0.048 秒)
针对现有基于距离的离群点检测算法在处理大规模数据时效率低的问题,提出一种基于聚类和索引的分布式离群点检测(DODCI) 算法。首先利用聚类方法将大数据集划分成簇;然后在分布式环境中的各节点处并行创建各个簇的索引;最后使用两个优化策略和两条剪枝规则以循环的方式在各节点处进行离群点检测。在合成数据集和整理后的KDD CUP数据集上的实验结果显示,在数据量较大时该算法比Orca和iDOoR算法快近一个数...
Apriori关联规则数据挖掘算法只针对一类相关数据集进行数据挖掘,而现实世界中各种不同的数据集非常庞大,如何在不相关数据集间进行数据挖掘,拓展规则的数量具有挑战性。目前Apriori关联规则算法研究基本上集中在算法性能优化和针对不同数据形式的基础上,没有突破不相关数据集的界限。针对这个问题,首先给出了相关数据集、不相关数据集、相容数据集的概念,进一步给出了一种基于Apriori的不相关数据集中相...
当前流行的聚类集成算法无法依据不同数据集的不同特点给出恰当的处理方案,为此提出一种新的基于数据集特点的增强聚类集成算法,该算法由基聚类器的生成、基聚类器的选择与共识函数构成。该算法依据数据集的特点,通过启发式方法,选出合适的基聚类器,构建最终的基聚类器集合,并产生最终聚类结果。实验中,对ecoli,leukaemia与Vehicle三个基准数据集进行了聚类,所提出算法的聚类误差分别是0.014,0...
为处理圆柱面和圆锥面上数据集的最近邻查询问题,提出利用Voronoi图进行查询和曲面转换2种解决方法。在圆柱面和锥面上构造Voronoi图,利用Vornoi图进行查询处理。将圆柱面和锥面转换映射为二维有界平面,给出转换规则和查询算法。对2种方法进行实验分析,结果表明,利用Voronoi图的方法适合静态数据集的最近邻查询,曲面转换方法对动态数据集的最近邻查询更有效。
目前很多数据挖掘和机器学习方法都有一个基本假设:训练数据和测试数据必须服从相同的分布。但是在很多情况下这种假设不成立,没有考虑分布差异的传统机器学习方法就不能正确分类了。提出了一种新的迁移学习方法DRTAT,对原训练数据进行动态分割重组,适时地淘汰冗余数据,并进行分类器的集成。通过在多个文本数据集和UCI数据集上进行测试,并与TrAdaboost算法进行比较,表明了算法的先进性。
商业活动和工程实践中通常会积累一些大规模的携带重要信息的数据,由于这种数据集经常有更新且数据量较大,在对它们进行增量式关联规则挖掘时,若采用基于传统的Apriori算法进行计算,一方面难以取得较好的效率;另一方面支持度设置过低会产生大量的冗余规则,设置过高则会把一些支持度不高但有用的规则过滤掉而导致算法对这些新规则感应迟钝。因此,借助遗传算法的相关机理,同时结合自然界的免疫进化理论及相关仿生机制,...
通过分析含各向异性尺度形变的数据集匹配问题, 将尺度约束引入模型, 再结合迭代最近点(Iterative closest point, ICP)方法的一般过程, 将含各向异性尺度形变的数据集匹配问题描述为Lie群约束优化问题. 通过Lie群的局部参数化和局部线性化方法, 将带尺度上下界约束的Lie群约束优化问题转化为一系列的二次规划问题, 最终形成了一个完整的匹配迭代算. 该方法不仅具有传统ICP...
针对直接基于小数据集贝叶斯网络结构学习不可靠, 以及目前对小数据集的处理只强调扩展而忽略对扩展数据的修正等, 提出了将扩展与修正相结合的小数据集处理机制, 以及在此基础上的基于结点排序和局部打分--搜索的贝叶斯网络结构学习方法. 可不需要完全结点顺序的先验知识, 但能够结合专家的部分结点顺序信息. 实验结果显示了这种方法的有效性和可靠性.
针对中国健康信息数据集规范不支持语义集成、自动处理和推理,在Description Logics数学基础上,提出一种基于本体数据库的知识基(KBS)处理架构。该架构将健康信息数字化建设纳入知识工程轨道,提供一个庞大、规范、可靠、安全、可维护的KBS。以婚前体格检查数据集为案例说明,结果证明该架构可实现知识的自动处理和推理。
研究水平分布数据集的隐私保护关联规则挖掘算法。针对现有算法需要多次扫描数据集的缺点,提出一种只须对数据集进行2次扫描、基于分布式FP-tree的隐私保护挖掘算法。该算法可以有效降低通信量,能在保证准确度的同时保护原始数据
针对不平衡数据集,提出一种基于后验概率的特征选择算法。该算法引入基于Parzen-window方法估算的不均衡因子,并以Tomek links中点为初始值进行迭代,找出满足后验概率相等的判别边界点,通过对这些点法向量进行投影计算得到各特征的权值。实验表明,对于不平衡数据集,该算法在不降低分类器总体性能的基础上,不仅可以有效降低维度,节省计算开销,而且能够避免常规特征选择算法用于不平衡数据时忽视小类...
提出一种针对客户离网问题的改进决策树分类算法——M-AdaBoost级联决策树。采用级联式的思想构造多个基于AdaBoost决策树分类器,通过设定子分类器的判决信息,组合成级联式决策树。实验结果表明,该方法相对于单一的C4.5决策树、传统的AdaBoost决策树以及随机森林具有更好的分类效果。
组合分类器通过在输入空间中依据一定的规则生成数据集来训练成员分类器。提出一种新的基于核函数的模糊隶属度方法用来分隔数据集,并依据数据集中样本的模糊隶属度将它们分为相对难分和相对易分的数据子集,根据两个数据子集的难易程度训练不同的分类器。并用得到的两类分类器作为成员分类器生成组合分类器。将该组合分类器应用到UCI的标准数据集,实验表明该方法比Bagging和AdaBoost算法具有更好的性能。
样本数据集的不一致性和冗余特征会降低分类的质量和效率。提出了一种一致化特征选择约简方法,该方法基于贝叶斯公式,采用阈值,将非一致数据归为最可能的一类,使数据集一致化。并在一致数据集上,运用类别区分矩阵选择可准确区分各类数据的最小特征变量集。给出的启发式搜索策略和应用实例表明:一致化特征选择约简方法能有效消除分类数据集的不一致性,选择最优的特征变量、降低数据的维数、减少数据集中的冗余信息。
以FCA为理论基础,应用Galois联络性质及其闭包运算,提出精确重述规则生成基和条件重述规则特征基的概念以及生成算法,论证由此构造的重述规则是最小非冗余的结论,设计最小非冗余重述规则挖掘的NRRM算法,并进行仿真计算和计算复杂性分析。

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...