#精選好文
【1.2 毫秒!#NVIDIA TensorRT 8 運行 BERT-Large 推理創紀錄】
支援NVIDIA GPU平台的深度學習推理框架「TensorRT」,是可以滿足電腦視覺、自動駕駛、工業自動化、資料中心等AI運算需求的框架。
自今年 5 月 TensorRT 8-嘗鮮版發表後,NVIDIA 終於在 20 日發表 TensorRT 8 正式版。TensorRT 8正式版與以往版本相比,能在1.2毫秒內運行全球廣為採用的基於transforemer模型之一BERT-Large,即將語言查詢推理時間縮短至上一版一半,創下最新紀錄,為搜尋引擎、廣告推薦和聊天機器人的AI模型提供支援。
更多精彩內容→ https://reurl.cc/GmOL5A
#關於AI的那些事
「深度學習gpu推薦」的推薦目錄:
- 關於深度學習gpu推薦 在 零壹科技 Facebook 的最讚貼文
- 關於深度學習gpu推薦 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳貼文
- 關於深度學習gpu推薦 在 零壹科技 Facebook 的最佳貼文
- 關於深度學習gpu推薦 在 Re: [菜單] 200K深度學習機- 看板PC_Shopping - 批踢踢實業坊 的評價
- 關於深度學習gpu推薦 在 如何為深度學習挑選合適的GPU?我的經驗與建議#3 - GitHub 的評價
- 關於深度學習gpu推薦 在 深度學習gpu推薦2021的推薦與評價,YOUTUBE、PTT 的評價
- 關於深度學習gpu推薦 在 深度學習gpu推薦2021的推薦與評價,YOUTUBE、PTT 的評價
- 關於深度學習gpu推薦 在 【GPU编程系列之一】从深度学习选择什么样的gpu来谈谈gpu ... 的評價
- 關於深度學習gpu推薦 在 請推薦寫深度學習相關程式的筆電 - Mobile01 的評價
- 關於深度學習gpu推薦 在 深度學習裝機指南:從GPU到顯示器,全套硬體最新推薦 的評價
- 關於深度學習gpu推薦 在 [情報] 從EVGA 分手NVIDIA 看板卡廠困境PTT推薦PC_Shopping 的評價
深度學習gpu推薦 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳貼文
從新創企業現狀觀察AI發展熱度
作者 : 黃燁鋒,EE Times China
2021-07-12
從人工智慧(AI)新創企業市場,以及類似Nvidia新創加速計畫(NVIDIA Inception)的專案,都可觀察AI技術或產業如今的發展熱度...
現在的很多生態締造者對於潛在生態的開發都十分在意:比如說及早深入教育市場,生態建設「從娃娃抓起」(編按:指從小開始);再或者對新創企業的扶持或孵化計畫。這裡所謂的「生態締造者」的範圍可以很廣,比如雲端供應商、作業系統供應商、針對應用開發解決方案的供應商,以及各種硬體廠商等。
這些其實是吸引更多開發者,潛移默化中造成開發習慣、黏性的關鍵。《電子工程專輯》中國版(EE Times China)先前拜訪過微軟(Microsoft) Azure一批又一批的孵化企業;還有華為HarmonyOS當下對眾多新創企業的扶持……這類新創企業扶持項目都有著相當易於理解的商業邏輯,亦屬常規操作手段。
而在AI生態建構上頗具代表性的應該就是Nvidia,畢竟筆者之前也一直在提Nvidia在AI生態打造上的完備程度多高,這種生態對新創企業的扶持當然也是必不可少的。Nvidia新創加速計畫(NVIDIA Inception)進入中國是在2016年,這個計畫本身就在加速AI創業公司發展。從AI新創企業市場,以及類似Nvidia新創加速計畫這樣的專案,都可觀察AI技術或產業如今的發展熱度。
AI市場這兩年的新機遇
截至去年底,這項計畫在全球範圍內覆蓋了超過7,000家AI新創公司,去年一年加入Nvidia新創加速計畫的公司數量較上一年多出了25%。從Nvidia的總結來看,新冠肺炎疫情可能很大程度推動了該計畫。之前Nvidia業務開發VP Jeff Herbst曾提過:「2020年一場全球性質的瘟疫攪動了經濟發展。但新創生態系統卻在此期間一度繁榮,這很可能不是巧合。」
這些AI新創企業,依照類別來看主要包括了IT服務、醫療健康、媒體與娛樂。看起來是完全符合預期,就如同疫情期間全球的PC和資料中心市場發展受到刺激一樣,這恰好也是Nvidia業務發展的重點。可以說,疫情雖然短時間內造成了停工停產,但Nvidia可能是這波行情下獲得最大發展機會的企業之一。
數位生活方式的轉變促成了很多領域的快速發展,包括在家辦公、遠端醫療、家庭娛樂等。隨Nvidia大趨勢本身的利多,以及大環境的影響,去年加入Nvidia新創加速計畫的新創企業的一大部分都在這些類別中。
在中國市場上,該計畫去年扶持的企業超過800家。這個數字也極大程度說明了AI在中國發展的繁榮。換句話說,全球25%的成長量也可間接表現出,新冠疫情的蔓延客觀上也推動了AI的發展,而且不止於醫療健康。
AI新創投資市場現狀
Nvidia新創加速計畫可認為是觀察AI新創企業,乃至整個AI產業發展的冰山一角。CB Insights先前公佈了一份AI 100榜單,列出100家AI新創企業——而且據說是從超過6,000家企業中選出來的。這份榜單涵蓋了跨18個核心產業的各種解決方案,這個數字其實已蠻驚人。這份榜單總結了這些年來AI新創公司獲得的融資金額、最具代表性的產業類別,以及有不少企業處在A輪融資階段。其中12家是獨角獸,而在地理位置分佈中,64%位於美國,8家位於英國,6家在中國和以色列等。
針對這個市場有一些更細緻的資料可以列舉。以前不久微軟豪擲197億美元收購Nuance為代表,目前美國最大的5家科技公司中,有4家大量收購了AI新創企業。其中蘋果(Apple)最多,收購次數達到了29次——這也是CB Insights前不久才更新的資料。僅今年一季,全球與AI新創企業相關的交易(如收購、兼併等)次數就達到了626次,交易金額大約是177億美元。與去年相比,2020年整年的資料是354億,這其中的增量還是相當可觀的。有投資機構認為,預期今年針對AI相關的企業交易量會是去年的2~3倍,這種持續活躍和加速的趨勢仍相當明確。
很多機構針對企業所作的統計也顯示,企業對於AI產品的採用計畫正在增加,或者說更多的企業在數位化轉型過程中準備應用AI。Signal AI針對1,000位C級高層的統計顯示,92%認為自家企業需要依靠AI技術來提升決策制定流程。GTC 2021上,Nvidia共同創辦人暨執行長黃仁勳針對Nvidia發佈的AI for Enterprise特別提到:「我們將AI擴展到企業的邊緣。我們相信企業產業邊緣將會是AI產生巨大影響的地方,包括醫療健康、倉儲物流、生產製造、零售、農業、交通。AI還沒有觸達這些產業,但現在不同了。」
所以從投資方和需求方兩個方面來看,AI新創企業相關的投資都在持續擴大。不過這一現象可能與其他熱門領域的發展具有極高的相關性。比如推行SaaS的企業如今受到格外的關注——而這些企業普遍將AI作為企業產品的一部分。所以AI成為某些正在快速成長中的市場的組成部分受到追捧,本身也是AI成長的原因。達成全球AI交易金額的新記錄,可能會在今年持續發生;今年截至目前交易輪次也仍然表現出了熱度。
這其中有一點轉變,是近一年才發生。亦即去年很多企業對於AI的接受度仍然不高——AI之前的存在更像是一種行銷手法:即告訴客戶和投資人,產品中有AI技術才能獲得青睞;而現階段逐漸在轉變至用AI來更實際地解決現實問題的階段發展,或者不需要再去反覆解釋究竟為什麼要接受AI。AI也變得越來越平常,這也是大部分技術走向成熟的必由之路。雖然從投資風向來看,這個市場遠未及成熟,Nvidia在此時持續做針對AI新創企業的新創加速計畫投入,還是相當好的時機。
兩個新創加速計畫示例
與此同時,Nvidia新創加速計畫在客觀上也是降低產業進入門檻的一種方式,所以該計畫本身又在推動AI產業發展。從這個層面來看,這一市場行為與Nvidia本身在技術上進行生態建構還是一脈相承。
對於加入計畫的AI新創企業而言,該計畫提供的支援主要包括幾點:Nvidia的部分產品折扣、AI技術支援(包括Nvidia深度學習學院DLI線上自主培訓課程免費兌換200次)、Nvidia管道的市場推廣(如在GTC大會上給予展示、演講等的機會)、融資服務、業務推薦等,也就是從技術和市場兩方面提供一些基礎支援。除了免費加入的新創企業,計畫中另設有高階會員(設定要求包括至少完成A輪融資或已產生業務收入等)有更多的支援,比如開發者關係支持、更多市場推廣等。
這些服務和支援,基本也顯示了當代新創企業扶持計畫的常規,大方向上也符合AI新創風向的趨勢。這裡列舉兩個加入Nvidia新創加速計畫的新創企業的例子,大致可從中體會此類新創扶持計畫的價值。
中國有家名為心咚科技的企業,主要業務方向是將AI技術融入到時尚、服飾產業。這家公司產品的核心,包括了物理引擎和數位面料中心:設計師藉由心咚科技的產品,可以將現實中的實物面料和服飾,虛擬地呈現出來。這其實很類似於「原型產品」、「設計驗證」,虛擬產品因此能做到「零廢棄物製造」。市面上大多數現有的3D服裝設計軟體都只是視覺模擬,而沒有工業級高精準度物理模擬所需的運算結果。
所以心咚科技採用Nvidia的GPU及互連等方案,實現了高效能運算(HPC)應用,完成對複雜光線追蹤、視覺化運算工作負載的處理,以虛擬的方式完成從選擇面料、成衣設計、審稿、打版到生產過程。心咚科技本身是Nvidia新創加速計畫會員,這個例子也顯示AI相關技術新創企業借助Nvidia的資源、支援和平台,能夠加速應用實踐和延展。
再舉個例子,美國有家新創企業Zippin,他們的產品針對零售店購物可實現自動結帳,這個過程主要是對消費者購買的零食、飲料等進行影像辨識。顧客在支援Zippin系統的店內買東西之後就可以離開,app會保留收據,追蹤消費記錄後收費(app或信用卡支付)。這個專案的市場契機,主要來自國外很多體育館、娛樂場所重開,Zippin自動結帳無人商店不需要排隊就能買東西。
Zippin如今的業務擴展似乎還頗順利,其商店數量在穩步增加,包括一些大型體育場館和零售連鎖店;而且擴展到了美國以外,包括巴西、俄羅斯、日本。這套「自動結帳」系統相關AI的核心部分,應該是商品的影像辨識,並且結合更多感測器實現位置、重量辨識等。不僅是顧客買了什麼,也在於商店本身的庫存管理自動化,Zippin用的是Nvidia Jetson在終端進行模型推理。
Zippin聯合創始人兼首席科學家Motilal Agrawal在談加入新創加速計畫時提到,「Nvidia新創加速計畫團隊與我們見面、借給Zippin第一個NVIDIA GPU並針對我們的應用提供關於Nvidia SDK的指導。」
這兩個例子都是在Nvidia新創加速計畫扶持下,業務得以擴大影響力或開展落地的典型。Nvidia在其官網列舉的實例還有不少,本身也算是對這些企業的市場宣傳途徑之一,可能不同參與者受惠於新創加速計畫的體驗是不同的:Nvidia自己列舉的案例中,有家AI醫療影像手術導航機器人相關新創企業,相當推崇Nvidia深度學習學院DLI 的培訓課程,包括部分課程後Nvidia頒發的一些認證證書。如前面所述,Nvidia深度學習學院DLI線上自主培訓課程也是Nvidia新創加速計畫的重要組成部分,這類課程對於AI新創企業的養成具備相當的價值。
無論是免費的自主培訓課程,還是Nvidia GPU產品折扣、AI技術支援、市場推廣、融資服務、業務推薦,這些Nvidia新創加速計畫的組成部分。對AI新創企業快速入門和進階AI開發、加速產品上市,以及對於Nvidia本身培養AI生態有其價值。
正如本文一開頭所述,這種潛在開發生態與習慣的培養,是大部分生態締造者佈局生態時的必要行為。AI新創企業市場如此火熱,是Nvidia開展新創加速計畫的契機。與此同時,這類計畫本身又在促進AI整個產業往前發展,也是推動AI產業現階段百花齊放、迸發AI創意的起點。
資料來源:https://www.eettaiwan.com/20210712nt61-ai-development-from-the-dynamics-of-new-venture/?fbclid=IwAR1AVhpCZaFFqeTnmgvW7ZoTBBv48gtKEMsxZa4u4i_BDryyVfKnQcYLQ40
深度學習gpu推薦 在 零壹科技 Facebook 的最佳貼文
加速AI導入,讓您每一分每一秒都榨滿GPU算力!
AI研發要進行機器學習/深度學習開發,需要IT人員協助建構環境、管理資源,卻不知道怎麼開始?
無論是要自己買GPU,還是要上雲端,AI-Stack都能協助你規劃需求,輕鬆管理IT與使用者流程,馬上行動與我們聯繫吧!
#數位無限軟體
#最佳代理商零壹科技
#NVIDIA推薦搭配軟體
深度學習gpu推薦 在 如何為深度學習挑選合適的GPU?我的經驗與建議#3 - GitHub 的推薦與評價
如果你只是買不起GTX 1060,我推薦4GB RAM 的GTX 1050 Ti。4GB 會有限,但是你可以玩轉深度學習了,如果你調一下模型,就能獲得良好的性能。GTX1050 Ti ... ... <看更多>
深度學習gpu推薦 在 【GPU编程系列之一】从深度学习选择什么样的gpu来谈谈gpu ... 的推薦與評價
本文首先根据显卡一些参数来推荐何种情况下选择何种gpu显卡,然后谈谈跟cuda编程比较相关的硬件架构。 从深度学习在2012年大放异彩,gpu计算也走入了 ... ... <看更多>
深度學習gpu推薦 在 Re: [菜單] 200K深度學習機- 看板PC_Shopping - 批踢踢實業坊 的推薦與評價
: 更新 :謝謝各位大大的建議,跟老闆討論過後預計朝請廠商報小型工作站
: 的單子,預算雖然說是沒有問題但也可能沒辦法買DGX@@,讓電蝦的
: 各位失望了
: 非常謝謝各位的建議,還請有點火氣上來的前輩們消消氣
原PO後來請廠商報小型工作站是聰明的決定
十萬的單子還上來求建議 表示對硬體的了解度沒有信心
雖然廠商也不一定懂
但讓廠商全權開規格 之後有問題廠商可以協助處理
廠商能除錯的資源還是比個人多些
上頭的人追究下來也有個廠商負責
100萬內的科研採購 雖然不用招標 但也總要有個廠商陪著跑文件
廠商多賺的錢就當服務費 省心
====
所以深度學習的機器到底要怎麼買?
剛好最近有些採購 也略有研究
以下是個人心得 不一定正確 在此做個筆記記錄
====
買電腦 第一先問預算 再問需求
但這次先問需求
真的需要一台GPU Server嗎?
在PC上開發模型,真正的大量資料上AWS、Azure、GCP、國網中心的雲端GPU做訓練
如果這樣的工作流不符合需求 (反正會有各種理由不行)
那也只好買台ML主機放地上了
如果預算沒有上限 (好幾個億花不完)
直接請廠商送NVDIA DGX Pod來就可以了
https://tinyurl.com/y3k63fo2
Easy Deployment of DGX Servers for Deep Learning
超Easy
預算不到億但超過千萬
DGX-2就在預算內
https://www.nvidia.com/zh-tw/data-center/dgx-2/
但NVIDIA要求購買DGX-2的單位最好要先有DGX-1的經驗
預算超過500萬就能買一台DGX-1
https://www.nvidia.com/zh-tw/data-center/dgx-1/
預算200萬上下你可以考慮買DGX Station
https://www.nvidia.com/zh-tw/data-center/dgx-station/
以上的價格都是我夢到的 詳細數字請打電話問業務
如果對於NV原廠機的配置不夠滿意
想要更換CPU RAM想加大點 儲存空間想調整
或是想把錢都砸在GPU 其他部分精簡
DELL HPE都有多GPU系列機器可客製化
嫌國外一線廠牌太貴 國內的華碩、麗台也都有GPU Server可以挑
怕被廠商坑可以先上DELL或HPE的美國官網點點配置
大概有個行情概念
錢能解決的問題都不是問題 最大的問題是沒有錢
沒錢的實驗室想買GPU Server來做深度學習
這時就要問情境了
是否願意犧牲機器穩定性、資料正確性來換取效能??
實驗室有多少人要用?
同時用還是排隊用?
有沒有專人管理維護伺服器?
如果真的要自己進這個坑就繼續吧
經驗告訴我 多人同時使用一台GPU server體驗很糟的
不只GPU是資源
CPU核心、CPU快取、PCIe頻寬、記憶體頻寬、記憶體容量、storage IOPS
全部都是瓶頸
8個人同時用一台8 GPU的server
就算一個人限制一顆GPU 8個人全部卡死
所以GPU server的使用情境是
- 訓練資料量太大了 需要多張卡做多倍的加速
(舉例:只能接受8張卡train 3小時 無法接受1張卡跑24小時)
- PC、HEDT的記憶體不夠
- 需要超多核心的CPU算力來做計算前處理
這時候又有人能管理伺服器(實驗室成員排隊不會吵架)
那可以買大台的server
一個人一個人輪流用 其他人只能等
推文裡有人買2xTITAN RTX主機45萬
若用不到512GB RAM或24GB VRAM或超多核心的算力
可以買5台9萬的PC 能用同時用的人更多 算力也更高 (2 GPU vs 5 GPU)
====
最後才是考慮組裝個人電腦來用
那組裝深度學習的主機 零件怎麼挑呢?
我不知道版上有多少人真的在深度學習
說不定我也沒有玩過 上來唬爛一通
下面的解釋都是心得 也不一定對 就當參考
CPU
有人說深度學習主機的CPU不重要
我不認為不重要
或者說 不重要不代表可以忽視
不然隨便拿個i3或Xeon Bronze亮機就好
CPU快的主機還能拿來做其他運算
非深度學習無GPU加速的機器學習算法也可以跑
GPU運算是需要CPU送資料進去的
若CPU需要做些前處理 算力不夠會導致資料產出速度不足導致GPU閒置
另一個就是PCIe頻寬 多卡時有機會塞車
(推文有人問ML主機跟礦機差在哪
礦機基本上不需要PCIe頻寬 一小段資料送進GPU爆hash出來
ML主機是大量的資料通過GPU 還有神經網路的權重更新問題
頻寬需求不同)
CPU的算力若要在高頻少核與低頻多核間選一個
我會選高頻少核 泛用性比較高
畢竟如果不是跑固定的商用軟體或開源軟體
很難確定平行化的效果如何
最後至少還有個單核硬上的選項
另外就是
我懷疑nvidia的驅動只有單核在跑 要是單核不夠力 GPU會比較慢
以上是推測 沒有直接證據
至於AMD CPU (先說明這是現在的狀況 2019/7/7後會不會改變我不知道)
Zen架構與Skylake架構相比
浮點運算AMD就是弱勢 (4個128bit 兩個加法兩個乘法 vs 2個256bit加乘皆可)
AVX 256bit AMD直接是Intel半速
更不用說要是程式用了Intel的編譯器或數學庫(MKL, MATLAB或numpy都會用到)
偵測到不是intel的CPU 直接執行相容性最高(最慢)的機器碼
AMD的CPU遇到奧步很難跑得比INTEL的快
至於HEDT平台
9980XE與2990WX我手上都有
版上隨便推人買2950X或2990WX是很不負責任的
我的建議是 除非你的程式在X399平台上測過真的比較快(或是一樣快但比較便宜)
不然買intel真的比較不會有性能問題
商人不是笨蛋 18核的9980XE與32核的2990WX才會沒什麼價差
實際測試這兩顆互有輸贏
如果你的程式是
- 多核平行化得很好 單核慢沒關係
- 有NUMA支援 不會卡RAM頻寬或CPU之間
- 浮點不重要 AVX 512沒差 且不會被intel軟體奧步
那2990WX有機會贏 但還是建議要測過再購買
(不到6萬就能體驗4路不對稱NUMA所帶來的各種奇葩效能問題 超值)
RAM
通道插滿 越大越好
做正事的機器不建議用超頻記憶體 標準條很棒
2019年 記憶體需求超過64GB 只能選HEDT
超過128GB 只能選工作站
超過512GB 只能選Server
嚴格要求資料正確性請買ECC
MB
主流平台挑選跟一般開菜單一樣
VRM散熱與設計挑一下
要是VRM供電不足 可能連維持全核Turbo都有問題
其他沒什麼重點
HEDT平台要看一下PCIe通道設計
針對ML需求會不會塞車
每張卡至少要x8 塞在CPU端或GPU端都會有影響
CPU散熱
i7-8700的原廠散熱沒有辦法在燒機下維持全核Turbo 4.3GHz
真的垃圾
比原廠散熱器好的都可以
GPU
重點來了
針對深度學習 第一要考慮的就是VRAM大小
VRAM決定了能放多複雜的模型下來算
(有人會說Unified Memory啊或是什麼NVLink合併記憶體的
會自己寫底層用這兩個功能的人就不會上來問問題了
Tensorflow可以開Unified Memory拿主記憶體硬跑
代價是效能剩10分之一 [PCIe x16頻寬約GDDR6 1/10]
NVLink自動合併記憶體 我還沒看到Tensorflow或Pytorch有支援
至少我在V100上是開不出自動合併 會的人麻煩教學一下
手動將模型拆放在兩張又不會卡頻寬也是需要花時間調整的)
還有batch size能開多少(這個可以透過多卡增加)
如果只是玩票性質的深度學習
6GB VRAM應該都能試跑常見的模型
如果是拿來做事的
11GB VRAM的是首選
因此消費級能挑的卡有
11GB
1080ti
2080ti
12GB
GTX TITAN X
TITAN X
TITAN Xp
TITAN V
24GB
TITAN RTX
Quadro卡很貴 也沒有特別快
除非你想買Quadro RTX 8000有48GB VRAM
不然光看規格 我找不到買Quadro RTX 6000而不買TITAN RTX的理由
(其實有 Quadro RTX 6000是鼓風扇 多卡散熱比TITAN RTX好)
Tesla卡是被動散熱沒有風扇
都是跟著設計過的機架出貨
就算搞到手裝在一般機殼也是直接燒掉
如果要使用多卡 一定要用渦輪扇版本的強制排氣
不然連跑幾個小時 直接熱死
再來要考慮的就是算力
如果會用半精度fp16訓練(AMP之類的)
有Tensor Core的TITAN RTX、2080ti、TITAN V有絕對優勢
(雖然2080ti的Tensor Core在fp16/fp32混和精度被老黃閹成半速 但還是很快)
只用fp32的話請直接看wiki Single precision欄位
https://en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units
TITAN V與TITAN RTX比較
TITAN V是HBM 某些吃VRAM頻寬的模型計算速度上會快些
TITAN RTX的VRAM比較大且有NVLink
NVLink的效果 有幫助但沒有很顯著
Puget Systems上關於GPU跑深度學習的測試文都可以看看
https://www.pugetsystems.com/search.php?query=+Machine+Learning
TITAN V與TITAN RTX個人會選RTX
慢一點等就好 (沒用Tensor core速度根本沒差)
放不進VRAM連算都不用算
PCHome定價還比較便宜
Storage
都2019了 SSD必備吧
額外的硬碟、RAID或是NAS就看預算
另外NVMe組RAID 0不會增加隨機讀取IOPS 不要為了這個浪費錢
Power
如果放機器的地方沒有220V
組4卡機器可能要考慮一下
1500W推4張TU102+CPU其實很拚
====
最後是菜單 線上隨便點的 別真的拿去組
80K 深度學習文書PC
CPU (中央處理器):
Intel i9-9900K【8核/16緒】3.6GHz(↑5.0GHz)/16M/95W
15800
Cooler (散熱器):
利民 Silver Arrow T8 8根導管(6mm)/TY-143B*1/雙塔/高度15.8cm/TDP:320W
2400
MB (主機板):
技嘉 Z390 AORUS ELITE 翼力特(ATX/1H/I網/一體式檔板/註五年)
4890
RAM (記憶體):
KLEVV(科賦) 16GB DDR4-2666/CL16
4x1888 7552
VGA (顯示卡):
技嘉 RTX2080Ti TURBO 11G(1545MHz/27.2cm/註四年)
36890
SSD (固態硬碟):
威剛 XPG SX8200Pro 1TB/M.2 PCIe 2280/讀:3500M/寫:3000M/TLC【五年保】附散熱片
4380
HDD (硬碟):
Toshiba 6TB【企業級】128MB/7200轉/五年保(MG05ACA600E)
5390
PSU (電源供應器):
全漢 聖武士 650W/銅牌/全日系/DC-DC/5年免費/CPU主線:18AWG
1990
CHASSIS (機殼):
全漢 CMT240B 炫鬥士 黑 顯卡長37.3/CPU高17.9/壓克力透側/上開孔/ATX
1090
====
300K 深度學習入門PC
處理器 CPU:
Intel i9-9980XE【18核/36緒】3.0G(↑4.4GHz)/24.75M/165W/無內顯【代理盒裝】
61000
主機板 MB:
華碩 WS X299 SAGE/10G(CEB/8*D4/雙I網-10G/2*M.2/1*U.2/三年)
21900
記憶體 RAM:
美光 Micron Crucial 16G DDR4-2666
8x2099 16792
固態硬碟 M.2|SSD:
三星Samsung 970 PRO NVMe 1TB/M.2 PCIe 讀:3500/寫:2700/MLC/五年保
13500
傳統內接硬碟HDD:
Toshiba 10TB【企業級】256MB/7200轉/五年保(MG06ACA10TE)
9990
散熱器:
利民 Silver Arrow IB-E Extreme 8根導管(6mm)/雙塔/高度16cm/TDP:320W【VWX】
2890
顯示卡:
華碩 TURBO-RTX2080Ti-11G(1545MHz/26.9cm/註四年)
4x38990 155960
機殼:
海盜船 Carbide Air 540 黑 顯卡長31/CPU高17/SSD*6(2共用)/E-ATX
4490
電源供應器:
全漢 CANNON 2000W 雙8/全模/全日系/1年保固/六項保護/支援18組PCI-E 6+2PIN
12900
====
300K那組可再往上調整一階成自組工作站
CPU可換Xeon W-2195
MB可換ASUS WS C422 SAGE/10G
RAM加到512GB
VGA換成2x Titan RTX
====
再往上就不要自組或白牌server了啦
驗證也是要錢的 廠商的人力服務支援都是錢
更高階的機器不是所有零件裝上去就會動的
散熱、供電、各零件相容性都是眉角
花了幾百萬經費買了不會動的機器 一定被教授砍死
這邊都還只有講到硬體
要是管理伺服器的人
軟體部分OS、CUDA driver等等設定無法自己來
還是要有個廠商在後面支援才好
啥都不懂買品牌機就對了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.16.145
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1559148243.A.200.html
唯一做法就是換Optane
8xSAMSUNG 970 PRO 1TB 贏不了900p 我測過了
過一個RAID還會增加延遲 IOPS反而下降
但容量 隨機寫 連續讀寫 還是有幫助 就看目的
要看情境
9900k就是小台的機器
64G RAM + 1~2GPU
2697v3應該是雙路大台的機器
爆幹大的RAM + 4~8GPU
大台的機器拆成小台給多人用 會比買一堆小台的給多人用起來慘
一堆小台的機器很難在需要大量算力時湊成一台大台的
(可以挑戰從eBay上買拆機100Gbps網卡組叢集 成功了功力++)
所以取決於你的需求
半精度/混合精度的訓練當然是非常tricky
速度雖然快 vram用量有機會減半 但不一定train得起來
沒解決也只能用fp32跑
單精度fp32的狀況下
V100 GV100 TITAN V TITAN RTX 2080ti 1080ti
(其實沒有差很多)
雙精度fp64在深度學習比較少見
跑模擬或工程CAD才會用到 (這時才買Quadro)
VRAM大能放複雜的模型或是batch size更大
更大的batch size比較能提升GPU利用率
(調高batch size後 計算速度變快是因為GPU與VRAM頻寬使用率上升
這兩種滿載後 batch size調更大也不會加速
滿載下才是比晶片算力還有記憶體頻寬 HBMvsGDDR)
雖然batch size大不一定收斂得比較快(時間上)
但大VRAM至少能讓你有選擇的空間
會用OpenCL全部自己來的大神
一定相當了解自己的程式需要什麼硬體資源 就不會上來問菜單了
但對於不懂的人寫出來的code 87%是需要單核效能
更不要說什麼花時間調整後
gcc + OpenBLAS + OpenCL @A+A
就能對抗
icc + MKL + CUDA @I+N
對於一般人來說還是太遙遠
※ 編輯: fo40225 (140.112.16.145), 06/01/2019 00:58:38
... <看更多>