您的位置:首頁 >城市 >

計算機行業專題報告:大模型推理算力知多少?

2023-08-28 06:02:35 來源:巨豐財經


(資料圖片僅供參考)

Transformer生成為訪存密集型任務,顯存及其帶寬限制算力利用。

Transformer作為自回歸模型,生成每一個新的token,都需要將所有輸入過的token反復計算,實際產業中,會將已經計算過的量(K、V值)預存下來,避免重復計算,導致每生成一個token,都需要與顯存進行數據交互(訪存),導致相比計算,Transformer模型在生成過程中對訪存的需求更高。目前全球最先進AI芯片的計算速度“遠快于”顯存帶寬。我們認為,針對大模型推理這類訪存密集型任務,對其算力需求的估計,不能單單考慮其FLOPs的需求,更重要的瓶頸在于訪存。

目前的優化手段主要是在算力成本與用戶體驗之間做平衡。實踐中有大量優化技術以克服GPU利用率低的問題,但存在一定取舍,總結而言,在不做模型精簡的情況下,GPU利用率與時延難以同時兼顧。而做參數量化、模型蒸餾等模型精簡看似可以做到“兼顧”,但卻舍棄了模型本身的效果。我們認為,高昂的推理算力成本是阻礙以GPT為代表的LLM模型應用大規模落地的重要原因之一,后續隨著算力性價比不斷提升,大模型應用發展前景廣闊。

支撐GPT-3.5推理任務的A100數量或至少在5萬張左右。根據我們測算,若以GPT-3.5當前的流量情況以及token生成速度,大約需要5萬張左右的A100才能承載推理。而如果再考慮到:1.當前全球流量最高的網站月活水平;2.更高的精度以發揮更好的模型效果;3.GPT-4若想要解開限制等因素,推理算力的需求或為長期高景氣,同時當前高昂的成本是阻礙應用大規模落地的主要因素之一。

英偉達L40s開啟降本第一步,應用有望加速落地。L40s在特定場景下性價比超越A100,供貨周期較短。我們認為,L40s的發布首先將為英偉達及其算力產業鏈相關企業帶來更快的實際業績受益,而非難以交付的“高增長訂單”。同時,非超大型模型端的降本有望加速應用(或尤其圖像領域)大規模落地。在千億級甚至以上參數的超大模型訓練與推理方面,A/H系列仍具有不可代替的能力,L40s的發布既填補了一部分腰部客戶需求,但以科技巨頭需求為主的A/H系列芯片又仍將需求旺盛。

風險提示:AI技術迭代不及預期的風險,商業化落地不及預期的風險,政策支持不及預期風險,全球宏觀經濟風險。

關鍵詞: