一种ARM处理器面向高性能计算的性能评估

为探索ARM 架构在高效能“绿色计算”领域中,面向高性能计算的应用价值,对一款ARM 指令集处理器进行性能评估,并将其与主流商用处理器Intel Xeon 进行性能对比。在微架构上,测试了该处理器的浮点数计算能力、访存带宽及延迟。

应用介绍

为探索ARM 架构在高效能“绿色计算”领域中,面向高性能计算的应用价值,对一款ARM 指令集处理器进行性能评估,并将其与主流商用处理器Intel Xeon 进行性能对比。在微架构上,测试了该处理器的浮点数计算能力、访存带宽及延迟。实验结果显示,该处理器的双精度浮点计算能力约为475 GFLOPS,相较于Xeon E5-2680v3,低了33%,访存带宽约为105 GB/s,优于Xeon 平台。在应用层面,选取4 个高性能计算领域的典型应用,包含Stencil 并行计算方法等,在该处理器实现移植和编译,并采用线程绑定的运行方法,提升缓存局部性,优化计算性能。实验结果显示,ARM 指令集处理器的应用移植简单,其优化思路与主流商用处理器(如Intel Xeon)类似,但在计算密集和随机访存型应用上存在提升空间,在Stencil 应用上性能近似,结合低功耗特点,在“绿色计算”领域具有竞争力。后续将持续基于最新的ARM 指令集芯片做相关研究。

文件列表(部分)

名称 大小 修改日期
一种ARM处理器面向高性能计算的性能评估.pdf2,863.77 KB2020-07-13

立即下载

相关下载

[一种ARM处理器面向高性能计算的性能评估] 为探索ARM 架构在高效能“绿色计算”领域中,面向高性能计算的应用价值,对一款ARM 指令集处理器进行性能评估,并将其与主流商用处理器Intel Xeon 进行性能对比。在微架构上,测试了该处理器的浮点数计算能力、访存带宽及延迟。
[Benchmark性能评估] cx5, 和cx5 socket direct 不通节点数BiFrost性能对比, mpirun-np 512 -bind-to core -report-bindings -mcacoll_hcoll_enable0 -x

评论列表 共有 0 条评论

暂无评论

微信捐赠

微信扫一扫体验

立即
上传
发表
评论
返回
顶部