NVIDIA DGX-1 是航向宇宙初始謎團的舵手

 
 

全球有眾多科學家正在利用各種方式模擬「大霹靂」來探索宇宙初生的狀態。在大霹靂的瞬間,物質就像是一團炙熱的粒子濃湯,夸克、膠子等各種粒子在其中亂竄推擠。隨著宇宙膨脹、溫度下降,夸克與膠子的速度越來越慢,漸漸由其間的強作用力所束縛,封鎖在質子、中子等粒子之中,於是構成原子核的質子和中子,就像一個小小的牢籠,將夸克永遠禁錮,讓今日的科學家無法一睹夸克的真實面貌。然而,1970 年代一個描述夸克間強作用力的理論「量子色動力學」 (Quantum Chromodynamics; QCD) 掀起了夸克的面紗,這個理論假定有八種名為膠子的中性粒子,在夸克之間穿梭,其強作用力把夸克侷限在強子裡。 (參考科學人雜誌《再造大霹靂那瞬間》)

台灣大學物理學系教授趙挺偉正在做的研究便是 QCD。QCD 是強作用力的基礎理論,在了解核能及宇宙初期的量子色動力學相變 (QCD Phase transition) 上扮演重要的角色。趙教授的研究方法也是目前解決 QCD 唯一的可行方法,便是用電腦執行巨量的數值計算來模擬 QCD。然而,只有每秒達百萬兆次浮點運算 (Exaflops)、預計 2022 - 2025 年間問世的下一代超級電腦,才能模擬包含各種動態 (u、d、s、c、b) 夸克的格點 QCD。但趙教授發現,導入 NVIDIA DGX-1 之後,如果忽略最重的 b 夸克,便可以用具物理質量之夸克來模擬包含動態 u、d、s、c 夸克的格點 QCD,並且使用具精確手則對稱之 domain-wall/ overlap 格點費米子,這樣的模擬方式前所未有。透過 DGX-1 以及創新的演算法,讓趙教授及其團隊得以在今年七月的格點場論國際研討會 (International Symposium on Lattice Field Theories) 向全球發表這項研究突破。

趙教授指出,他從 2009 年開始採用 GPU 來加速 QCD 之數值計算,但難題是如何打造一個每秒超過 10 兆次浮點運算 (Teraflops) 的多 GPU 架構,並且所有 GPU 記憶體總和至少 128 GB。這項難題的基本原因在於 PCIe 的頻寬造成多 GPU 間通訊的瓶頸,導致不能透過增加 GPU 個數來增加計算速度,事實上,當 GPU 個數超過 4 個時,其計算速度不增反降。然而,自從導入 DGX-1 後,透過 NVIDIA NVLink 高速互連技術,解決了多 GPU 間的互連問題,全面釋放多 GPU 之效能,而計算速度與 GPU 的個數也成等比線性增加,較之前透過 PCIe 使用 2 個 GPU 時的模擬速度快了 40 倍。由於 DGX-1 的記憶體共有 128 GB,因此得以容納一個 644 的格點來模擬具物理質量之夸克。換言之,DGX-1 可以解決格點 QCD 中長久以來的「不可能任務」。

趙教授表示:「我的團隊做到的不僅是加速 QCD 的計算,最重要的是證明了可以從第一原理出發去模擬具精確手則對稱之格點 QCD,並且所有夸克都具物理質量。」趙教授進一步指出:「DGX-1 中 8 個 Tesla V100 GPU 及 NVLink 的完美搭配,產生出得天獨厚的運算效能,加上我們過去十年來所發展的最先進演算法與 CUDA 程式,讓我們得以領先全球、發現嶄新的 QCD 模擬方式。我們認為 DGX-1 是模擬 QCD 的最佳平台,為我們開啟了一扇窗,朝向未知的世界,探索更浩瀚的宇宙。」

因為開發人員益發仰賴人工智慧運算的應用程式平行計算技術,使得多 GPU 和 CPU 的系統越來越普遍,然而 PCIe 頻寬逐漸成為多 GPU 系統層級的瓶頸,因此更快速、更具擴展性的多處理器互連需求節節上升。NVLink 技術透過針對多 GPU 與多 GPU/ CPU 系統設定,能讓系統輸送量極大化,提供更高的頻寬、更多的連結以及更佳的擴展性。單一 NVIDIA Tesla V100 GPU 可支援多達六個 NVLink 連結,總頻寬高達每秒 300 GB,是 PCIe 3 的 10 倍,而 DGX-1 能全面釋放這些技術優勢,提供更好的擴展性,以進行超快速的深度學習訓練,將多 GPU 運算效能提升至全新境界。


在時空格點上,3個夸克侷限在一個核子中的示意圖。

 


QCD 真空中的拓撲波動示意圖,其中紅色/藍色和它們的深淺度表示正/負拓撲電荷密度。