>>>
搜索结果: 1-15 共查到知识库 CUDA相关记录16条 . 查询时间(0.078 秒)
针对目前通常使用Matlab等软件调用CPU进行功率谱估计的现状,提出了一种借助于CUDA平台调用GPU并行计算功率谱的方法;根据经典功率谱估计方法的原理,实现了GPU进行功率谱估计,通过Matlab的C语言接口输出结果,并给出了程序执行流程;最后通过数据对比,显示了CUDA并行计算带来的性能优势。
在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求...
在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求...
本文利用CUDA执行模型实现了植物模拟生长算法的完全并行化,结合标准排源质量评价数学模型,得到了一种高效率的并行排源算法,对应的代码能运行在GPU上。在此基础上,利用若干不同规模的排源算例对新版本算法进行了测试。测试结果表明,在保持已有版本算法优点的基础上,新算法的计算效率相对CPU版本提升了500倍以上,相对CPU+GPU混合版本,也提升了30倍以上。对111 PBq以下装置,新算法的计算时间小...
介绍如何在CUDA上搭建KD-TRIE,并对其进行搜索,使其能适应解决邻居搜索问题.实验结果表明,当搜索半径较小(如整个空间直径的0.01和0.001),数据规模较大(如106)时,使用KD-TRIE进行搜索的效果最佳,与蛮力算法相比可以达到加速比5 000~15 000倍的效果;当搜索半径较大时,加速比会相应减少.采取优化措施,可以提高加速比.
格子Boltzmann 方法(LBM)由于其具有计算简单, 天然并行, 易于程序实现, 易于处理复杂边界等优点而成为流体建模和模拟的一种重要方法. LBM 的上述优点也使得其非常适合利用图形处理单元(graphic processing unit, GPU)进行大规模流体计算. 基于GPU CUDA(compute unified device architecture)编程平台, 首先设计了相...
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphic processing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified device architecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基...
为实现基于PC平台的GPS软件接收机C/A码信号快速搜索,提出了一种由GPU完成信号搜索计算的快速实现方法。该方法以基于FFT的码相位并行搜索算法为基础,通过CUDA编程,由GPU完成主要的计算任务,实现了信号搜索在GPU上的并行计算。最后,将该方法与在CPU上实现的捕获方法进行了比较测试,结果表明:新方法的捕获速度显著提高,冷启动条件下,搜索全部32颗卫星只需1.653秒,为GPS软件接收机的实...
对MS-Alignment算法进行分析得出该算法很难满足大规模数据对鉴定速度的要求,而且具有的一个特点是相同的任务在不同的数据上重复计算,为数据划分提供了基础。基于CUDA编程模型使用图形处理器(GPU)对步骤数据库检索及候选肽段生成进行加速优化,设计了该步骤在单GPU上的实现方法。测试结果表明,此方法平均加速比为30倍以上,效果良好,可以满足蛋白质翻译后修饰鉴定中大规模数据快速计算的需求。
针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法, 对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并...
介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的应用前景。测试结果表明,CUDA方式相对传统计算方式的最好加速效果分别达到了22.39倍、46.88倍、51.32倍,证明了CUDA加速计算的有效性...
针对数据量庞大、复杂的三维数据场环境下航路规划速度偏低的问题,提出一种基于统一计算设备架构(CUDA)的三维数据场航路规划方法。该方法以三维水下声场为威胁模型,水下航行的潜艇为背景,运用CUDA对大规模数据场环境下对航路进行规划,对可并行计算部分与CUDA进行计算,仿真结果证明该方法可以提高规划速率、优化初始航路。
针对尺度不变特征变换(SIFT)算法耗时多限制其应用范围的缺点,提出一种基于统一计算设备架构(CUDA)的尺度不变特征变换快速算法,分析其并行特性,在图像处理单元(GPU)的线程和内存模型方面对算法进行优化。实验证明,相对于CPU,算法速度提升了30~50倍,对640×480图像的处理速度达到每秒24帧,满足实时应用的需求。
针对NVIDIA公司的CUDA技术用Geforce8800GT在Visual Studio2008环境下进行测试,从程序运行时间比较判断CUBLAS库、CUDA内核程序、CUDA驱动API、C循环程序与Intel MKL库以及FFTW库与CUFFT库运行响应的差异。测试结果表明,在大规模矩阵乘法和快速傅里叶变换的应用方面,相对于CPU,利用GPU运算性能可提高25倍以上。
图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...