无需购置英伟达高档GPU也能晋升计算速率,迷信
作者:[db:作者] 发布时间:2025-02-05 08:34
无需购置英伟达高等GPU也能晋升盘算速率,迷信家开辟疾速近场能源学算法,比现有算法减速800倍 起源:DeepTech深科技跟着 DeepSeek 的年夜火,也让人们对英伟达 GPU 及其配套的同一盘算装备架构 CUDA(Compute Unified Device Architecture)有了更多懂得。而在克日,深圳北理莫斯科年夜学杨杨副教学跟配合者,缭绕英伟达 GPU 研收回一款新算法。详细来说,该团队研收回一种应用 GPU 并行 CUDA 编程技巧的键型近场能源学并行算法——PD-General。在 AI 范畴有“得算法者得世界的说法”,本次算法的最年夜代价在于不用调换 GPU,就能让盘算效力实现最年夜化。PD-General 可能充足应用英伟达 GPU 中的外部构造,经由过程读取 GPU 外部存放器显卡,在无需调换更高等显卡的同时,就能晋升盘算效力,从而可能增加对更高程度的硬件。哪怕应用一般的家用 GPU,也能将底本须要多少蠢才能实现的盘算义务收缩到多少小时乃至多少分钟。(起源:Engineering Analysis with Boundary Elements)据懂得,杨杨是研讨力学算法出生,然而参加本次研讨的硕士生则是盘算机出生,后者十分熟习盘算机架构,恰是如许跨学科的穿插融会,使得他们不走平常路地打造了本次算法。GPU 并行盘算亟需废除“困境”据懂得,近场能源学(PD,Peridynamic)是一个非部分实践框架。该实践经由过程引入基于积分的把持方程,来处理不持续空间建模的成绩。(注:不持续空间建模,是一种用于模仿跟剖析不持续介质或构造的数值方式。)这种方式在不转变网格的情形下,可能对裂纹扩大停止更好的建模。(注:裂纹扩大,是指资料在外界要素感化之下,裂纹从初始地位逐步延长的进程。)在上述进程中,须要将求解域团圆为一系列物资点,每个物资点包括了地位、体积跟密度的相干信息。为了保障数值盘算的稳固性跟正确性,必需设置较小的增量步长,而这会带来大批的迭代次数跟盘算资本。(注:增量步长,是指在数值盘算跟盘算机模仿中,将全部盘算进程分别为一系列小步调的时光距离。)与基于经典持续膂力学的方式比拟,近场能源学不只须要更多的盘算,同时也须要更年夜的存储空间,因而会招致盘算效力较低。为了进步近场能源学的盘算效力,此前曾有多个研讨团队提出过一系列方式。对 CPU 并行减速中的年夜少数减速优化来说,都是面向小于 100 万点的示例。而对年夜范围模仿来说,平日须要依附超等盘算机或多 CPU 构造,这每每须要更高的装备规格,并且也不便利用户应用。此前,基于 GPU 的并举动力学研讨年夜多范围于将串行顺序转换为并行顺序。年夜少数已有优化战略所带来的减速后果,也重要依附于 GPU 本身机能的晋升。与此同时,也很少有人基于 GPU 硬件构造来计划优化战略。别的,GPU 并行盘算还存在一些成绩:其一,用于存储邻域点的内存空间不被事后断定巨细,这招致线程跟内存资本的应用效力非常低下,进而招致内存跟盘算资本的挥霍,甚至于让 GPU 难以处置年夜范围盘算。(注:邻域点是指在数学跟盘算机迷信中,以某个点为核心,满意必定间隔或前提的一组点。)其二,年夜少数 GPU 并行盘算依然重大依附全局内存,CUDA 的内存构造并未失掉不充足应用,招致内存带宽被挥霍。其三,年夜少数近场能源学并行算法缺少通用性。有的算法可能会限度邻域的巨细,甚至于只能处置平均散布且未破坏的团圆构造;而有的算法令可能会限度近场能源学实践。(注:团圆构造,是将持续函数或变量转换为团圆点的构造。)基于上述范围性,本次研讨职员开辟了 PD-General 算法,借此胜利进步了内存应用率跟盘算效力。年夜年夜进步盘算效力,扩大 PC 盘算才能Warp,是 GPU 中履行并行操纵的基础单元,它由 32 个线程构成。因而,研讨职员将线程块构造设为 32k(k 是正整数)。研讨职员以内力盘算为基准,在‌英伟达的 Nsight Systems 上,测试跟比拟了三种模子中差别线程块构造的机能。(注:Nsight Systems‌ 是一款体系级机能剖析东西,公用于实现利用算法的可视化,旨在辅助开辟者发明优化机遇并停止调优,从而实现跨 CPU 跟 GPU 的高效扩大。)时期,研讨职员剖析了单个时光步调的履行情形,并分辨测试了 64、128、256、512、768 跟 1024 个线程的线程块构造。测试成果如下图所示,条形图表现占用率,折线图表现履行效力。该图表现:当每个块的线程数为 1024 时,机能最低。别的,线程块构造的占用率越高,盘算效力就越高。个别来说,领有 128 到 256 个线程的构造能够实现最佳机能。斟酌到增添邻域半径的潜伏影响,研讨职员抉择了存在 256 个线程的构造来发展测试。(注:邻域半径,‌是指以某点为核心,笼罩必定范畴的间隔。在这个范畴内的点被以为是该点的“街坊”,其在很多算法跟利用中都有主要感化。)(起源:Engineering Analysis with Boundary Elements)研讨职员还测试了顺序的总盘算时光。总盘算时光指的是,从顺序开端到停止的完全履行时光,它包含除了数据输出之外的全部操纵的时光。试验中,研讨职员运转了三个差别的模子:线性顺序、OpenMP 并行顺序、CUDA 并行顺序,同时这一试验涵盖了 7 组差别标准的团圆构造,这些团圆构造领有从 2 万到 200 万不等的点数。与此同时,研讨职员还剖析了邻域点数目年夜于 32 跟小于 32 的情形。下图标明,基于 CUDA 的并行顺序比 OpenMP 跟串行顺序效力高得多。(起源:Engineering Analysis with Boundary Elements)别的,跟着物资点数目的增添,基于 CUDA 的并行顺序的效力愈加显明。如下图所示,并行顺序的初始减速比绝对较低,与 OpenMP 顺序比拟不明显差别。但是,跟着物资点的增添,减速比开端回升。带裂纹的键型近场能源学减速比是 OpenMP 的 200 倍。(起源:Engineering Analysis with Boundary Elements)在最年夜范围案例研讨中,研讨职员快要场能源学的时光庞杂度设为 O(PN),P 为物资点的总数,N 为每个物资点的视界点数。别的,研讨职员应用 ADP、AP、PN 表现内存巨细(单元为字节)。试验中,研讨职员所应用的 GPU 实践内存巨细为 12GB。但是,因为操纵体系的请求跟 CUDA 启动占用的内存,只有大概 11GB 的内存可被用于编程。因而,研讨职员应用 11GB 作为基线,以断定近场能源学的最年夜比例。经由过程代入四个前提:1. 双精度,N=28;2. 双精度,N=36;3. 单精度,N=28;4. 单精度,N=36 来代入响应内存盘算公式。借此得出了响应前提下的实践内存占用情形(如下表所示)。(起源:Engineering Analysis with Boundary Elements)试验成果表现,单精度的吞吐量是双精度的 64 倍。因而,在更高的精度程度之下,当处置雷同范围的成绩时,双精度的处置速率跟运转速率较慢。并且,邻域半径的巨细也会影响顺序机能。与此同时,这也标明邻域点数目越多,履行范围越小,履行效力越低。研讨职员在论文中表现,其所应用的近场能源学通用模子可能模仿数万万个粒子。经由过程优化参数设置,能够模仿的最年夜粒子数为 75645000。详细来说,在单精度下模仿 1000 步只要 100 秒到 600 秒履行时光,而在双精度下模仿 1000 步须要 900 秒到 2500 秒履行时光。总的来说,研讨职员经由过程剖析近场能源学模子跟摸索并行盘算实践,应用 CUDA 打造了高机能、低本钱的近场能源学剖析框架 PD-General。在并行框架中,其所开辟的邻域天生模块无效地增加了内存占用挥霍。别的,研讨职员还经由过程内存拜访模块,年夜年夜进步了盘算效力,从而能够扩大团体盘算机的盘算才能。参考材料:1.Yang,Y. et al. A fast bond-based peridynamic program based on GPU parallel computing. Engineering Analysis with Boundary Elements 172,106133(2025). https://doi.org/10.1016/j.enganabound.2025.106133https://baijiahao.百度.com/s?id=1822824852862951748 wfr=spider for=pc排版:刘雅坤
电话
020-66888888