工学 >>> 计算机科学技术 >>> 计算机应用 >>> 中国语言文字信息处理 数字媒体技术 计算机仿真 计算机图形学 计算机图象处理 计算机辅助设计 计算机过程控制 计算机信息管理系统 计算机决策支持系统 计算机应用其他学科
搜索结果: 1-15 共查到计算机应用 语音相关记录51条 . 查询时间(0.24 秒)
2020年6月14—19日期间,CCF A类国际顶级会议-国际计算机视觉与模式识别大会(以下简称IEEE/CVF CVPR 2020,图1)主办的超大规模商品图像检测挑战赛(以下称“RetailVision Detection Grand Challenge”)举行了颁奖典礼。由来自语音及语言信息处理国家工程实验室语音情感计算及多模态交互研究室和中国科大信息学院自动化系组成的参赛团队(以下简称US...
四川大学多媒体技术基础课件 语音编码。
发音特征表征了语音的发音方式信息,能够辅助传统的韵律特征改善声调建模的精度。在分析汉语声韵母发音特点的基础上,将发音方式划分为19类,并提出利用阶层式多层感知器计算语音信号属于各类的后验概率,作为发音特征。之后,将发音特征与传统的韵律特征一起用于声调建模。实验结果显示,加入发音特征后,在三种不同的建模方法下声调识别的准确率提升约5%。将声调模型融入大词表连续语音识别系统后,汉字错误率有了明显的下降
提出了一种新的两步法来实现欠定情形下语音信号的盲分离。第一步,采用一种重构观测信号采样点搜索法来估计混合矩阵;第二步,提出了一种伪提取矢量的概念,通过伪提取矢量来提取取值占优的源信号的采样值来恢复源信号。在源信号的恢复过程中,还使用了经典的基于线性规划的欠定盲源分离方法。结果表明:该方法由于在信号的各采样点处无须优化,在源信号的分离过程中,分离速度要比基于线性规划的方法快数倍,且分离精度不低于基于...
盲信号处理算法主要有批处理和自适应算法两类,导出了一种基于峭度的自适应盲源分离(blind source separation,BSS)开关算法,将该算法应用于语音信号盲分离处理,通过综合实验,从分离前后的波形、频谱图和主要评价参数说明该算法具有良好的信号分离效果。与批处理中的典型算法,如扩展联合对角化(joint approximative diagonalization of eigenmat...
总结了语音端点检测技术的基本原理、步骤及发展情况,介绍了当前主要语音端点检测算法的研究进展;并对各主要算法的检测性能进行了较详细的分析和比较。最后,总结了语音端点检测技术的发展特征,并展望了该技术的未来发展趋势。
为了有效解决描述嘴唇轮廓的口形特征点定位问题,根据颜色空间中唇部和皮肤颜色的差异提出了一种新的从视频中定位口形特征点的方法。首先将视频文件分解为一帧帧的图片序列,定位并提取出图片中的口形区域,然后利用支持向量机(SVM)将口形区域分为唇部和非唇部区域,最后根据口形图像几何特征的先验知识实现口形特征点的定位。实验结果表明提出的方法具有较高的准确性和鲁棒性。
为提高语音识别系统的实时性,利用动态规划和并行计算思想,提出一种适用于嵌入式语音识别系统的DTW(动态时间规整)在线并行算法。通过分析标准DTW及其主要衍生算法,对DTW算法的数据结构进行改进以满足在线算法要求,在寻找最佳路径过程中动态连续地分配和释放内存或预先分配固定大小的内存,并将多个关键词的DTW计算分布到多个运算单元;最后汇总各运算单元的结果得到识别结果。实验表明,该算法比经典DTW降低了...
为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出“视频三音素”的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中使用了视频音频联合特征,并加入了动态特征。在合成过程中,连接视频三音素HMM模型形成句子HMM,并从中提取特征参数,合成可视语音。从主观和客观评估结果来看,合成视频的真实感强,满意度较...
字音转换是德语语音合成系统不得不解决的难题。可以使用基于规则驱动的迭代有限状态转录机来解决这一问题。在该算法中,首先在一个词库的基础上制定一些字音转换规则,然后在此规则的基础上通过迭代有限状态转录机将德语单词中的所有字素转换成音素。经过对整个词库进行算法测试,单词的字音转换正确率可以达到94.4%。
为了兼容母语与非母语说话人之间的发音变化,提出一种新的声学模型建模方法。分析中国人受母语影响产生的英语发音变化,利用中国人英语发音数据库自适应得到语音模型,采用声学模型融合技术构建融合2种发音规律的识别模型。实验结果证明,中国人英语发音的语音识别率提高了13.4%,但标准英语的语音识别率仅下降1.1%。
随着当前电子商务和金融交易领域的发展,用户身份认证的应用变得越来越广泛.结合实际,本文构建了一种基于人脸和语音的混合型身份认证系统,分别提出了基于重建误差分类器的特征脸确认算法和基于高斯混合 (Gaussian mixture models, GMM)说话人确认算法;最后在分数层进行融合,提出了基于正交多项式核函数的支持向量机.实验结果表明,该方法在分类、泛化能力和减少支持向量数目方面均取得了良好...
提出了一种二级搜索模型,该模型首先利用最小音节步长搜索算法进行语音段检测,然后采用二分搜索算法确定语音段的精确位置。理论分析及实际运行结果表明,与传统的基于能量的端点检测算法相比,其搜索效率能够提高70%以上。该算法对语音环境有较高的要求,可用于有声出版物语音自动分割,以及具有良好信噪比系统的语音端点检测。
基于格的汉语自然对话语音索引方法研究。

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...