時間:2023-10-12 15:45:02來源:EETOP編譯整理
在不到一年的時間里,生成式人工智能通過OpenAI的ChatGPT(一種基于transformers的流行算法)獲得了全球聲譽和使用;趖ransformers的算法可以學習對象不同元素(如句子或問題)之間的復雜交互,并將其轉換為類似人類的對話。
在transformers和其他大型語言模型(LLM)的推動下,軟件算法取得了飛速發展,但執行這些算法的處理硬件卻落后了。即使是最先進的算法處理器也不具備必要的性能,無法在一兩秒的時間內完成最新的 ChatGPT 查詢。
為了彌補性能上的不足,領先的半導體公司使用大量最好的硬件處理器構建系統。為此,他們在功耗、帶寬/延遲和成本之間進行了權衡。這種方法適用于算法訓練,但不適用于部署在邊緣設備上的推理。
功耗挑戰
雖然訓練通; fp32 或 fp64 浮點運算來生成大量數據,但對延遲要求并不嚴格。它的功耗高,成本也高。
推理過程則截然不同。推理通常是在 fp8 算法上進行的,它仍然會產生大量數據,但要求嚴格的延遲、低能耗和低成本。
模型訓練的解決方案來自計算農場。計算農場需要運行數天,使用大量電力,產生大量熱量,購置、安裝、運行和維護費用高昂。更糟糕的是,推理過程會碰壁,阻礙 GenAI 在邊緣設備上的普及。
推理過程則大不相同。推理通常在 fp8 算法上執行,該算法仍會產生大量數據,但需要關鍵延遲、低能耗和低成本。
模型訓練的解決方案來自計算場(computing farm)。需要運行數天,使用大量電力,產生大量熱量,購置、安裝、運行和維護費用高昂。更糟糕的是,推理過程會碰壁,阻礙 GenAI 在邊緣設備上的普及。
邊緣生成式人工智能推理技術現狀
用于 GenAI 推斷的成功硬件加速器必須滿足五個屬性:
處理能力達到 petaflops 級,效率高(超過 50%)
低延遲,在幾秒內提供查詢響應
能耗控制在 50W/Petaflops 或以下
與邊緣應用兼容的經濟實惠的成本
現場可編程,可進行軟件更新或升級,避免在工廠進行硬件改造
現有的大多數硬件加速器都能滿足部分要求,但不能滿足所有要求。古老的 CPU 是最差的選擇,因為它的執行速度無法令人接受;GPU 的速度相當快,但功耗高,延遲不足(因此成為訓練的選擇);FPGA 在性能和延遲方面都有妥協。
完美的設備應該是定制/可編程的片上系統(SoC),設計用于執行基于transformers的算法以及其他類型的算法。它應支持適當的內存容量,以存儲嵌入 LLM 的海量數據,并可編程,以適應現場升級。
實現這一目標有兩個障礙:內存墻和 CMOS 設備的高能耗。
內存墻
在半導體發展歷史的早期,人們觀察到處理器性能的進步被內存訪問速度進展緩慢所抵消。
隨著時間的推移,兩者之間的差距繼續分化,迫使處理器等待越來越長的時間讓內存提供數據。結果是處理器效率從完全 100% 利用率下降。
為了緩解效率的下降,業界設計了一種多級分層內存結構,在處理器附近采用更快、更昂貴的內存技術,用于多級緩存,從而最大限度地減少主內存較慢甚至較慢的外部內存的流量。
CMOS IC的能耗
與直覺相反,CMOS IC的功耗主要是數據移動而不是數據處理。內存訪問的功耗比基于斯坦福大學Mark Horowitz教授領導的一項研究的基本數字邏輯計算消耗的能量高出幾個數量級。
在使用整數運算時,加法器和乘法器的能耗不到 1 皮焦,而在處理浮點運算時,加法器和乘法器的能耗只有幾皮焦。相比之下,在高速緩存中訪問數據所耗費的能量則會躍升一個數量級,達到 20-100 皮焦,而在 DRAM 中訪問數據所耗費的能量則會躍升三個數量級,超過 1000 皮焦。
GenAI加速器是以數據移動為主導的設計的典型例子。
內存墻和能耗對延遲和效率的影響
生成式AI處理中內存墻和能耗的影響正變得難以控制。
在短短幾年內,ChatGPT 的基礎模型 GPT 就從 2019 年的 GPT-2 演進到 2020 年的 GPT-3,再到 2022 年的 GPT-3.5,直至目前的 GPT-4。每一代模型的規模和參數(權重、令牌和狀態)數量都有數量級的增長。
GPT-2 模型包含 15 億個參數,GPT-3 模型包含 1 750 億個參數,而最新的 GPT-4 模型則將參數數量增加到約 1.7 萬億個(官方數字尚未公布)。
這些參數的龐大數量不僅迫使內存容量達到 TB 級,而且在訓練/推理過程中同時高速訪問這些參數也將內存帶寬推高到數百 GB/秒,甚至 TB/秒。更糟糕的是,移動這些參數會消耗大量能源。
昂貴的硬件閑置
內存和處理器之間令人生畏的數據傳輸帶寬和明顯的功耗使處理器效率不堪重負。最近的分析表明,在尖端硬件上運行 GPT-4 的效率下降到 3% 左右。為運行這些算法而設計的昂貴硬件 97% 的時間都處于閑置狀態。
執行效率越低,執行相同任務所需的硬件就越多。例如,假設有兩個供應商可以滿足 1 Petaflops(1000 Teraflops)的需求。供應商(A 和 B)的處理效率不同,分別為 5%和 50%(表 2)。
那么供應商 A 只能提供 50 Teraflops 的有效處理能力,而非理論處理能力。供應商 B 將提供 500 Teraflops 的處理能力。要提供 1 petaflop 的有效計算能力,供應商 A 需要 20 個處理器,而供應商 B 只需要 2 個。
例如,硅谷一家初創公司計劃在其超級計算機數據中心使用 22,000 個 Nvidia H100 GPU。粗略計算,22000 個 H100 GPU 的價格為 8 億美元,這是其最新融資的大部分。這個數字還不包括基礎設施的其他成本、房地產、能源成本以及企業內部硬件總擁有成本(TCO)中的所有其他因素。
系統復雜性對延遲和效率的影響
另一個基于目前最先進的基因人工智能培訓加速器的例子將有助于說明這一關切。這家硅谷初創公司對GPT-4的配置將需要在HGX H100或DGX H100系統上以8組部署22,000個Nvidia H100 GPU,總共需要2,750個系統。
考慮到 GPT-4 包括 96 個解碼器,將它們映射到多個芯片上可能會減輕對延遲的影響。由于 GPT 結構允許順序處理,因此每個芯片分配一個解碼器,總共 96 個芯片,可能是一個合理的設置。
這種配置相當于 12x 個 HGX/DGX H100 系統,不僅會影響單個芯片之間的數據傳輸延遲,還會影響板卡之間和系統之間的數據傳輸延遲。使用增量transformers可以顯著降低處理復雜性,但需要處理和存儲狀態,這反過來又增加了需要處理的數據量。
最重要的是,前面提到的3%的實施效率是不現實的。當加上系統實現的影響以及相關的更長延遲時,實際應用中的實際效率將顯著下降。
從長遠來看,GPT-3.5 所需的數據量遠不及 GPT-4。從商業角度來看,使用類似 GPT-3 的復雜性比 GPT-4 更具吸引力。另一方面,GPT-4 更準確,如果可以解決硬件挑戰,它將成為首選。
最佳成本分析
讓我們把重點放在能夠處理大量查詢的系統的實施成本上,例如類似谷歌的每秒 10 萬次查詢量。
使用當前最先進的硬件,我們可以合理地假設,包括購置成本、系統運營和維護在內的總擁有成本約為 1 萬億美元。據統計,這大約相當于世界第八大經濟體意大利 2021 年國內生產總值(GDP)的一半。
ChatGPT 對每次查詢成本的影響使其具有商業挑戰性。摩根士丹利估計,2022 年谷歌搜索查詢(3.3 萬億次查詢)的每次查詢成本為 0.2 美分,被視為基準。同一分析指出,ChatGPT-3 的每次查詢成本在 3 美分到 14 美分之間,是基準成本的 15-70 倍。
尋找芯片架構解決方案
半導體行業正在狂熱地尋找解決成本/查詢挑戰的方法。雖然所有的嘗試都是受歡迎的,但解決方案必須來自一種新穎的芯片架構,這種架構將打破內存墻并大幅降低功耗。
下一篇:關注電池和電池管理系統的安...
中國傳動網版權與免責聲明:凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.yzzhiyu.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。
本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
產品新聞
更多>2023-12-19
KAF107-11-YVI7.5KW減速機,傘齒輪減速電...
2023-12-15
KAD89-LEN100LN4E-L32NH減速機廠家瓦瑪特
2023-12-15
2023-12-13
2023-12-07
2023-12-05