神威太湖之光的算力
A. 神威·太湖之光用的是什麼操作系統
採用了國產系統神威睿思(RaiseOS 2.0.5),基於Linux開源代碼,已經過十多年的磨礪,非常成熟,主要面向高性能計算和通用計算領域。
神威睿思操作系統的主要優勢在於自主可控度高和安全性強等方面。對Linux系統內核進行了全面的剖析,進行了安全性增強和特殊改造,結合申威處理器自主指令系統特點和國產處理器新增安全特性,極大提升了基礎硬體平台和核心軟體系統的安全性。
B. 神威 太湖之光
開機一分鍾地球人算32年
今年6月,「神威·太湖之光」成為世界最快超級計算機,運算速度全球第一。這是全球首個突破10億億次的超級計算機,該套系統包括處理器在內的所有核心部件全國產化。中國超算是否已經邁上世界之巔?「神威·太湖之光」運算速度到底有多快?據悉,其運算一分鍾相當於地球人算32年。
「簡單來說,這套系統1分鍾的計算能力,相當於全球72億人同時用計算器不間斷計算32年;如果用2016年生產的主流筆記本電腦或個人台式機作參照,『太湖之光』相當於200多萬台普通電腦。」國家超級計算無錫中心主任楊廣文介紹。「神威·太湖之光」由40個運算機櫃和8個網路機櫃組成。一台機櫃就有1024塊處理器,整台「神威·太湖之光」共有40960塊處理器。「每一塊處理器相當於20多台常用筆記本電腦的計算能力,4萬多塊再組裝到一起,速度之快可想而知。」楊廣文說。
C. 神威太湖之光已統連續第四次成為全球最快超算了嗎
據報道,北京時間17日凌晨4時,在美國丹佛舉行的全球超級計算大會上,基於我國「神威·太湖之光」超算系統的「非線性大地震模擬」應用獲得「戈登·貝爾」獎,神威·太湖之光」超算系統連續第四次成為全球最快超算。
未來「神威·太湖之光」將圍繞世界重大科技需求,持續不斷地開展高性能計算應用服務,為世界科技創新做貢獻,支持國家高性能計算發展戰略及創新型國家建設,特別將在能源環境、先進製造等領域發揮重要作用。
D. 「神威·太湖之光」有多牛
開機一分鍾地球人算32年
今年6月,「神威·太湖之光」成為世界最快超級計算機,運算速度全球第一。這是全球首個突破10億億次的超級計算機,該套系統包括處理器在內的所有核心部件全國產化。中國超算是否已經邁上世界之巔?「神威·太湖之光」運算速度到底有多快?據悉,其運算一分鍾相當於地球人算32年。
「簡單來說,這套系統1分鍾的計算能力,相當於全球72億人同時用計算器不間斷計算32年;如果用2016年生產的主流筆記本電腦或個人台式機作參照,『太湖之光』相當於200多萬台普通電腦。」國家超級計算無錫中心主任楊廣文介紹。「神威·太湖之光」由40個運算機櫃和8個網路機櫃組成。一台機櫃就有1024塊處理器,整台「神威·太湖之光」共有40960塊處理器。「每一塊處理器相當於20多台常用筆記本電腦的計算能力,4萬多塊再組裝到一起,速度之快可想而知。」楊廣文說。
E. 神威太湖之光有多厲害
「神威·太湖之光」是由中國國家並行計算機工程技術研究中心研製的超級計算機。是世界首台運行速度超十億億次的超級計算機,其峰值性能達每秒12.5億億次、持續性能為每秒9.3億億次,均居世界第一,被稱為「國之重器」。
神威·太湖之光超級計算機由40個運算機櫃和8個網路機櫃組成。每個運算機櫃比普通家用的雙門冰箱略大,打開櫃門,4塊由32塊運算插件組成的超節點分布其中。每個插件由4個運算節點板組成,一個運算節點板又含2塊「申威26010」高性能處理器。
一台機櫃就有1024塊處理器,整台「神威·太湖之光」共有40960塊處理器。每個單個處理器有260個核心,主板為雙節點設計,每個CPU固化的板載內存為32GBDDR3-2133。
至於機房擺放,太湖之光採用了兩側各20個計算機櫃和存儲機櫃、中間單列網路系統機櫃的布局。
重要特點
高性能:神威太湖之光雙精浮點峰值高達125PFlops,穩定性能為93PFlops,相比較之下,美國超算泰坦的雙精浮點峰值高達27 Pflops,穩定性能為17.6 PFlops,天河2號的雙精浮點峰值高達54.9Pflops,穩定性能為30.65Pflops。
高效率:「神威太湖之光」整機效率高達74.16%,相比較之下,美國超算泰坦的整機效率為65.19%,而河2號的整機效率為55.83%,由於超算性能越強,規模越大,整機效率提升就越困難,「神威太湖之光」在穩定性能是美國超算泰坦5.2倍的情況下,整機效率依然大幅優於泰坦。
低功耗:「神威太湖之光」的功耗為15.3 MW,美國超算泰坦功耗為9MW,天河2號為17.8 MW,可以說,「神威太湖之光」的穩定性能達到天河2號3倍的水平,但整機功耗卻低於天河2號。
性能功耗比高:「神威太湖之光」的性能功耗比高達6G/W,相比之下,TOP500超算榜單上的競爭對手都相形見絀,天河2號的整機性能功耗比為1.95G/W,美國泰坦超算的性能功耗比為2.143G/W,美國超算紅杉整機性能功耗比為2.069G/W,日本超算「京」整機性能功耗比為0.830/W,美國超算Mira整機性能功耗比為2.069G/W(Mira和紅杉用的都是IBM的Power)。
小體積:「神威太湖之光」機櫃佔地605平方米,美國超算泰坦機櫃佔地面積404平方米,天河2號機櫃佔地面積720平方米
主要性能
1、峰值性能125.436PFlops,世界第二
2、持續性能93.015PFlops,世界第一
3、性能功耗比6051MFlops/W,世界第一
F. 神威太湖之光名字含義
開機一分鍾地球人算32年今年6月,「神威·太湖之光」成為世界最快超級計算機,運算速度全球第一。這是全球首個突破10億億次的超級計算機,該套系統包括處理器在內的所有核心部件全國產化。中國超算是否已經邁上世界之巔?「神威·太湖之光」運算速度到底有多快?據悉,其運算一分鍾相當於地球人算32年。「簡單來說,這套系統1分鍾的計算能力,相當於全球72億人同時用計算器不間斷計算32年;如果用2016年生產的主流筆記本電腦或個人台式機作參照,『太湖之光』相當於200多萬台普通電腦。」國家超級計算無錫中心主任楊廣文介紹。「神威·太湖之光」由40個運算機櫃和8個網路機櫃組成。一台機櫃就有1024塊處理器,整台「神威·太湖之光」共有40960塊處理器。「每一塊處理器相當於20多台常用筆記本電腦的計算能力,4萬多塊再組裝到一起,速度之快可想而知。」楊廣文說。
G. 居於世界第一名位置的中國神威太湖之光超級計算機的運算速度
理論浮點數運算性能為125,435.9TFlops(每秒浮點運算次數),而LINPACK測試中的實際性能為93,014.6TFlops(每秒浮點運算次數)。
有74%的效率,相比天河二號(62%)以及排名第三的泰坦(65.8%)都要高。本機組的圖形性能也較為突出,在Graph500排名中位列亞軍。不過遇上存儲器訪問較為頻繁的運算處理操作、整數數值較多的運算,存儲器訪問的樽頸效應就開始顯現了。
相較天河二號系統功耗達17.8百萬瓦(開啟散熱系統全速運轉時則高達24百萬瓦),神威·太湖之光僅使用15.3百萬瓦,且每瓦性能達到 6 GFLOPS/W,截至2017年11月為止,在Green 500能效比排名中排名第20位。
(7)神威太湖之光的算力擴展閱讀:
應用
清華大學地球系統科學研究中心與計算機系合作,利用「神威·太湖之光」首次實現了百萬核規模、高解析度的地球系統數值模擬。此前,中國大陸的地球模擬系統模式只能達到200公里網格規模的解析度,但現在已可開展25公里網格解析度的地球系統模擬工作,在海洋上可達到10公里解析度。
目前,三十多家用戶單位在天氣氣候、航空航天、海洋科學、新葯創制、先進製造、新材料等領域與國家超算無錫中心開展了合作。
2016年神威·太湖之光超級電腦上的「全球大氣非靜力雲分辨模擬」應用軟體得戈登貝爾獎,該獎項是頒發給超級電腦上的應用軟體設計獎,因為硬體性能的有效發揮最終還是取決於軟體設計,此前30年該獎都由美日兩國獲得,首次有第三國打破此規則。
H. 超算神威太湖之光僅僅跑分強勁
11月14日,新一期全球超級計算機500強(TOP500)榜單在美國鹽湖城公布,中國神威太湖之光蟬聯冠軍,中國天河二號屈居次席。除神威太湖之光和天河二號外,中國也在TOP500上榜總數上與美國持平。
正如天河2號獲得6連冠後卻因為使用了Intel公司的至強Phi計算卡而被一些別有用心之徒百般詆毀,在神威太湖之光實現了包括處理器在內的所有核心部件全部國產化後,網路上又傳來了不和諧的音符——有媒體認為,神威太湖之光的「可用性能與理論性能相去甚遠」,並以「HPL效率是74.16%」,「HPCG測試只有0.371PFLOPS,效率則只有0.3%,這比天河2號的1.1%還要低」來質疑神威太湖之光。
言下之意,就是神威太湖之光的可用性能與理論性能相去甚遠,只能用來跑分,根本就用不來。那麼什麼是Linpack和HPCG,神威太湖之光真的只能用來跑分么?
什麼是Linpack?
上面媒體的一段話引用了幾個測試的結果,並以74.16%、0.3%、1.1%等實際數據來說明中國超算可用性能與理論性能相去甚遠,非常具有迷惑性。筆者簡單的就Linpack測試和HPCG測試做個簡要說明。
Linpack指的是矩陣求解,在科學計算中把實際問題抽象成方程組,然後離散成矩陣計算矩陣倍,代表的是傳統的以矩陣為基礎的數值計算方法,常用於理科和工科的數值求解和數值模擬。那麼為何超算大多以Linpack測試成績論高低呢?原因就在於很多科學計算模型都包含了矩陣求解,比如解微分方程,因此在超算任務中具有不可取代性——像輻射流體力學就是求解微分方程;而核爆炸模擬其實就是輻射流體力學+蒙特卡洛預測;雷達截面的矩量法計算也有賴於解微分方程;業內專家還告訴筆者「現在的深度學習演算法的核心演算法與Linpack的是一個」.......因此,linpack測試並非是一些跑分軟體那樣:不服跑個分,而是真正具有實戰價值的測試。
Linpack效率指的是實際計算時的次數除以理論計算,舉例來說:
神威太湖之光的理論性能為125.4 PFlops,Linpack浮點性能93PFlops,Linpack效率為74.16%。
天河2號的理論性能54.9Pflops,Linpack雙精浮點性能33.8PFlops, Linpack效率61.5%
泰坦的理論性能27 Pflops,Linpack雙精浮點性能17.6 PFlops,Linpack效率為65.19%。
紅杉的理論性能為20.1Pflops,Linpack測試雙精浮點性能為16.3P,Linpack效率高達81%。
這里要說明一點,就是超算的規模越大,Linpack測試效率的提高就越難——規模大到如一定程度,維持一段時間的穩定運行是非常難的,何況是太湖神威之光93PFlops的高性能。而神威太湖之光在Linpack測試性能是美國超算泰坦5倍以上的情況下,Linpack測試效率大幅領先於泰坦,這就非常可貴了!至於紅杉的Linpack測試效率為何會高達81%,筆者會在下文做講解。
另外還要說明的的一點,天河2號Linpack效率低於美國泰坦的原因——一方面是因為天河2號的規模更大,影響了效率;另一方面是因為天河2號採用的是Intel的至強PHI計算卡,而該計算卡就以理論性能強大,但穩定性能相對偏低著稱——同樣使用E5和至強PHI計算卡的美國超算Stampede,不僅運算能力僅為天河2號的五分之一左右(未升級前,升級後為三分之一),整機效率比天河2號更低,只有60.7%。
總而言之,以神威太湖之光的規模,取得Linpack效率達到74.16%已經非常厲害了,在採用異構計算的超算中屬於頂尖水平,大家千萬不要被一些無良媒體誤導了。
異構超算在Linpack效率上天然低於同構超算
對於筆者認為的神威太湖之光Linpack效率達到74.16%屬於頂尖水平的結論,也許某些人會提出異議,比如會列舉出TOP500排名第四的美國超算紅杉,紅杉的理論性能為20.1Pflops,Linpack測試雙精浮點性能為16.3P,Linpack效率高達81%。
那麼為何紅杉的Linpack效率如此之高呢?原因就在於和神威太湖之光、天河2號、泰坦等採用異構計算的超算不同,紅杉採用的依舊是傳統的同構計算技術。
超算可以分為兩種架構。採用同構計算架構的超算只需要單純使用一種處理器,在同一類型的處理器上執行計算任務。舉例來說,中國超算神威藍光採用了申威1600,美國的米拉和紅杉採用了PowerPC-A2處理器,這些超算都沒有採用GPU或其它類型的眾核晶元等加速器。因此,紅杉、米拉、神威藍光都是採用同構計算架構超算的代表。
異構計算使用CPU、GPGPU、GPDSP、ASIC、FPGA和其它類型的眾核處理器來處理不同類型的計算任務。採用異構計算架構的超算會使用至少2種類型的處理器,其中異構計算架構中通用CPU負責邏輯復雜的調度和串列任務,加速器負責並行度高的任務,實現計算加速。具體來說,採用異構計算架構的超算在運算中既使用處理器,又使用GPU或眾核晶元等加速器。以中國天河2號和神威太湖之光為例,天河2號有16000個計算節點,每個節點由2片Intel-E5-2692和3片Xeon-Phi組成,共使用了32000片Intel-E5-2692和48000片Xeon-Phi。神威太湖之光雖然只採用了申威26010眾核處理器,看起來像同構超算,但由於申威26010集成了4個管理核心和256個運算核心,一片申威26010就是一個計算節點,管理核心執行類似於天河計算節點中E5的功能,而256個運算核心則發揮了類似於Xeon-Phi的加速作用,因此也屬於異構超算。
由於異構編程需要提前預知模型並做特殊優化,而且很多應用未必適合異構模型,使得採用異構計算的超算對於編程和優化的要求更高——一位業內人士就評價,「異構編程太勞心勞力了,高端人才的精力應該用在關注自己的專業上來,而不是當代碼狗......年紀大一點的科研人員就不願自己編代碼了,一些年青但不願勞思費神的科研人員也不願意編寫異構代碼......」。因此,採用異構計算的超算在Linpack效率上天然低於採用同構計算的超算。
那麼既然同構超算在編程方便和效率上具有優勢,為何全球超算都轉向異構計算呢?原因就在於,這樣超算可以獲得更高的性能,之前抱怨異構編程太勞心勞力的業內朋友就表示,「超算方面眾核是近些年的趨勢,雖然編程勞心費力,但是在性能面前我們還是得忍,相同成本誰不想性能更好,科研對性能的需求可以用飢渴來形容」。
嘮嘮叨叨說這么多,主要是為了打一個補丁,防止別有用心之徒用美國同構超算和中國異構超算比Linpack效率,進而抹黑中國超算Linpack效率低下,何況前者的規模遠遠小於後者。
什麼是HPCG
目前,評價超算的指標有不少,除了測試Linpack的TOP500,還有強調的是內存帶寬和延遲的Graph500,Graph500對全系統的內存帶寬和內存延遲有很高的要求,而計算能力本身已經不影響測試結果了,這種測試偏向於訪存密集型運算,在大數據分析等場景下比較有意義。
除Graph500之外,還有強調節能環保的Green500。那麼,在Graph500和Green500排行榜上,神威太湖之光的表現如何呢?Graph500名列第二,Green500名列第三。
不過,也有工程師認為無論是TOP500,還是Graph500都過於極端——TOP500過於強調計算性能,Graph500過於強調帶寬和延遲等因素,因此採用了新的標准HPCG。
HPCG是美國正在推的一個新測試標准,目前還沒有被業界廣泛接受,HPCG代表了共軛梯度迭代法的一類應用的計算和通信特徵,僅僅代表了某一個方面的特徵,並不能涵蓋超算的所以特徵。HPCG比較重視計算性能和通信的平衡,如果計算性能和通信不是一個量級的,即便兩項指標分開看都很強,但也會導致HPCG偏低的結果。
另外,HPCG也存在一些缺陷,據業內人士介紹,「由於針對具體硬體結構修改共軛梯度演算法很容易得到高得多的成績,為了避免這一點,HPCG代碼目前還在鎖定狀態,不準修改演算法本身。但在使用中,用戶是會修改演算法的,這使得這一測試會脫離實際」。
在某媒體的報道中,「但在更具實戰意義的HPCG性能(高性能共軛梯度基準測試)中,太湖之光只有0.371PFLOPS,效率則只有0.3%,這比天河2號的1.1%還要低」,0.3%和1.1%的數據和該媒體的這種表述很容易讓人誤認為,天河2號和神威太湖之光的HPCG測試結果非常差,但實際上,在HPCG測試排行榜中,天河2號位列第一,而神威太湖之光為列第三,這其實是很不錯的成績。而且一位業內人士猜測,「也許神威還沒有好好進行優化」。
必須指出的是,神威太湖之光的HPCG低於天河2號,並非是因為計算性能或在通信上不如天河2號,恰恰相反,在計算性能上神威太湖之光大幅領先於天河2號,而在互聯網路方面,神威太湖之光也不遜色於天河2號——雖然在帶寬上有差距,但在實際應用中,帶寬指標比較延遲等指標而言並不太重要(延時指的是1個CPU把自己的計算結果交給其他CPU,如及時送到,其他CPU就能繼續計算,否則就要等待了,晶元、鏈路、協議等都會影響延時)。因此,神威太湖之光在HPCG上遜色於天河2號,原因就在於計算性能實在是過於強悍,以至於產生了計算和通信上的不平衡,並最終導致自HPCG上遜色於天河2號。
神威太湖之光能否用得起來?
對於神威太湖之光根本用不起來的說法,其實只要關注新聞,就能明白這是徹頭徹尾的謊言。憑借「神威?太湖之光」強悍的計算性能,國內科研單位在天氣氣候、航空航天、海洋科學、新葯創制、先進製造、新材料等重1要領域取得了一批應用成果——由中科院軟體所、清華大學和北京師范大學申報的「全球大氣非靜力雲分辨模擬」課題,由國家海洋局海洋一所和清華大學申報的「全球高解析度海浪數值模式」課題,由中科院網路中心申報的「鈦合金微結構演化相場模擬」課題分別入圍了戈登貝爾獎,使中國在該領域實現零的突破。戈登貝爾獎是高性能計算應用領域的最高獎,神威太湖之光用事實說明,完全自主研發的超算不僅可以用起來,還能用的好。
另外,筆者介紹幾個神威太湖之光的具體應用:
應用一:基於國產平台的國產地球系統模式。
「科普中國」是中國科協攜同社會各方利用信息化手段開展科學傳播的科學權威品牌。
本文由科普中國融合創作出品,轉載請註明出處。