如何提升深度學(xué)習(xí)平臺效率？阿里云推出了這么一個神器

5G寬帶 dvbcn編輯 2017-06-22 10:32 閱讀 5,973 來源：DVBCN 　

隨著深度學(xué)習(xí)對人工智能的巨大推動，深度學(xué)習(xí)所構(gòu)建的多層神經(jīng)網(wǎng)絡(luò)模型的參數(shù)空間已從百萬級上升到百億級，這對計算能力提出了新的挑戰(zhàn)。相比CPU，GPU更適合深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型，可進行高度統(tǒng)一、相互無依賴的大規(guī)模并行計算。

阿里云發(fā)布的最新一代異構(gòu)計算通用GPU實例GN5規(guī)格族就是一款用于搭建深度學(xué)習(xí)加速平臺的云端利器。

“品學(xué)兼優(yōu)”的GN5采用了NVIDIA Pascal架構(gòu)旗艦級P100 GPU，可在云端按需構(gòu)建敏捷彈性、高性能和高性價比的深度學(xué)習(xí)平臺，讓用戶以最簡便地方式享用阿里云遍布全球的高效、穩(wěn)定的云基礎(chǔ)設(shè)施資源。

與上一代相比，GN5的單實例性能拓展了5倍，單實例最多可提供8個 NVIDIA P100 GPU，提供2萬多個并行處理核心，最高75TFLOPS FP32單精度浮點、150 TFLOPS FP16半精度浮點和38 TFLOPS FP64雙精度浮點運算能力。

自建GPU物理服務(wù)器經(jīng)常會遇上擴容難、適配難的難題，GN5規(guī)格族提供了靈活彈性的系列化配置，可以根據(jù)深度學(xué)習(xí)計算力的要求，按需選擇合適的規(guī)格，分鐘級即可完成實例的創(chuàng)建，并可根據(jù)運算力需求進行GPU實例的“Scale-out”水平擴容或“Scale-up”垂直變配。

為了更好地發(fā)揮GN5多GPU卡并行計算效率，GN5支持GPUDirect，通過GPU卡之間點對點通信，可讓GPU之間在無需CPU干預(yù)下，直接通過PCIe的總線進行高帶寬低時延的互聯(lián)通信，極大地提升了深度學(xué)習(xí)訓(xùn)練中模型參數(shù)交換效率。

除了GPU外，深度學(xué)習(xí)還需要有海量的數(shù)據(jù)存儲能力、業(yè)務(wù)服務(wù)能力、監(jiān)控能力等，這在傳統(tǒng)模式下復(fù)雜度高、工作量大、費時費力。而GN5實現(xiàn)了與ECS彈性計算生態(tài)的完美結(jié)合，可與OSS對象存儲、NAS文件存儲等打通，滿足深度學(xué)習(xí)海量訓(xùn)練數(shù)據(jù)的低成本存儲和訪問要求；通過EMR服務(wù)進行預(yù)處理；通過云監(jiān)控服務(wù)進行GPU資源的監(jiān)控與告警；通過負載均衡、彈性伸縮、資源編排等快速在云端搭建完整彈性GPU服務(wù)；并可搭配容器服務(wù)使用，簡化部署和運維的復(fù)雜度，提供資源調(diào)度服務(wù)等。

GN5實例支持靈活的使用支付方式，用戶可以按年支付以獲得最高的使用折扣；也支持按月周期付費，以降低用戶的計算資源使用一次性投入成本，并且具有相對較低的單位小時使用價格；同樣支持按小時的付費方式使用戶以最低的單次使用成本來應(yīng)對臨時性的短期使用需求。

云計算