2023年2月,美國前國務卿基辛格與谷歌前首席執行官施密特、麻省理工學院教授丹·胡騰洛赫共同發表了一篇文章,名為《ChatGPT預示著一場智力革命》(ChatGPT Heralds an Intellectual Revolution)。
(資料圖片)
基辛格提出,自印刷術發明數百年之后,生成式大語言模型將再一次改變人類的認知過程。“OpenAI開發的ChatGPT現在能夠與人類交流。隨著它們的能力變得更廣泛,它們將重新定義人類知識,加速我們現實構造的變化,并重組政治和社會。”
一般而言,信息系統的拐點便是將信息的生產和獲取成本從邊際成本轉向固定成本。
舉一個簡單的例子,過去找到某個目的地需要花幾塊錢買份地圖,然后在地圖上慢慢尋覓,而現在用高德等APP搜索,需要的時間不到300毫秒,高德花費的成本不到一分錢,而這是由于高德使用了大量的測繪等固定成本做到的。即從每次消費者都要付很多,變成了高德一次性付很多。
而大模型帶來的關鍵轉變也在于此,將人的成本從邊際成本變為固定成本,過去的律師、醫生等專業性的工作均可由其完成。
正因如此,自ChatGPT發布后,上線僅5天就吸引了100萬名用戶,兩個月后,月活躍用戶就已經達到1億人次,成為歷史上用戶數量增長最快的消費級應用。要知道,TikTok經過大約9個月的時間才達到這一量級,而Instagram則用了兩年半。
01
百模大戰
巨大的蛋糕誰都想來分上一塊。
據朋湖網不完全統計,我國目前已有超過100家機構發布了自己的AI大模型,其中通用大模型就有超過20個。
8月31日,國內首批八家大模型通過《生成式人工智能服務管理暫行辦法》備案,百度、智譜、百川、字節、商湯、中科院(紫東太初)、MiniMax、上海人工智能實驗室這八家機構的大模型正式上線面向公眾提供服務。
然而,大模型投入極大,極其耗費資源。英偉達曾透露,訓練一次1750億參數的GPT-3需要34天,使用1024張A100 GPU芯片,單次訓練成本高達1200萬美元。
“超過千億(參數)級別的大模型,訓練需要投入的人力、電力、網絡支出等投入,一年至少5000萬美金到1億美金。”昆侖萬維CEO方漢認為。
微軟甚至為了訓練大模型,建成一臺排名世界前五的超級計算機。
以上種種統統證明了,通用大模型擁有極高的準入門檻,早已不是入門者的游戲。然而,改變世界的機會沒有人能視而不見,因此,國內幾乎所有知名的互聯網公司均有大模型方向的布局。
2010年,以拉手網、窩窩團、美團等為代表的“千團大戰”如火如荼,雖然活到如今的只剩一家,但這場競爭客觀上的確為消費者普及了移動互聯網。如今的大模型同樣如此,已是業內共識的是,通用大模型未來可能只有兩三家,甚至可能只有一家。
而如何才能活到最后,在數據與模型之外,應用才是關鍵所在。
02
商業化困境
早在2016年,當DeepMind研發的AlphaGo擊敗李世石后,其宣布與英國國家衛生服務局,以及Moorfields眼科醫院、倫敦大學醫院等機構展開AI醫療診斷算法的合作,包括IBM旗下的Watson Health也趁著這股勢頭加快了拓展的腳步。
自此,人工智能迅速成為了資本市場最為性感的故事,甚至一度到某個公司發個關于AI合作的通稿就能看到股票的拉升。
泡沫破滅的同樣很快。
2017年,在AI界頂級的神經信息處理系統大會(NIPS)上,阿里·拉希米將當時快速發展的機器學習比作煉金術,即方法雖然有不錯的效果,但缺乏嚴謹完備可驗證的理論知識,這直接戳破了當時AI存在的最大問題。
2018年,Watson Health被曝出內部文件,顯示其腫瘤診斷算法經常給出不準確的、與美國國家治療指南相悖的建議。例如,對于一名被診斷患有肺癌,同時伴有嚴重出血癥狀的患者,Watson Health給出的建議是接受化療并使用藥物貝伐珠單抗(Bevacizumab),然而該藥物可能導致“嚴重或致命的出血”,建議不要給患有嚴重出血的患者服用。
2019年,IBM停止了沃森人工智能藥物研發工具的開發和銷售,理由是銷售表現令人失望。
這揭示了人工智能的行業落地最大的問題——業務難以復制,模型不可泛化。
對如今的大模型而言依然如此。
一方面,通用大模型用于訓練的信息大部分屬于網絡信息,有相當一部分存在錯誤,同時專業知識與行業數據的積累較為淺薄,導致數據的“噪音”過大,難以滿足專業要求高、容錯率低的產業場景需求,畢竟我們對于大模型的希望肯定不止于“寫寫詩、聊聊天”而已。
另一方面,行業場景有豐富的know-how訴求,對數據的“投喂”要講究行業特殊性,如在生產管理中,要將原料特性、排產規則、資源分配規則等特定數據“喂養”給大模型,才能實現替代操作員類似的效果。
03
生態機會
為了更好的實現商業化,大模型企業均在不遺余力地推進生態化建設。
2022年,阿里云在國內首倡MaaS(Model as a Service,模型即服務)理念,提出以AI模型為核心的開發范式,并搭建了一套以AI模型為核心的云計算技術和服務架構,并將其全部向大模型初創企業和開發者開放。
“阿里云將把促進中國大模型生態的繁榮作為首要目標”, 阿里云首席技術官周靖人說道。
5月,百度宣布設立規模為10億元的“百度文心投資基金”,重點投資孵化大模型領域的優質創業企業。資料顯示,百度千帆大模型如今月活企業近萬家,覆蓋金融、制造、能源、政務、交通等行業的400多個業務場景。
多名AI行業的從業者均向朋湖網表達過:“對于應用場景而言,將大模型與行業小模型結合起來將會產生巨大的價值。”大模型可以帶來非專業信息的生成以及更舒適的人機交互,而小模型可以帶來更為專業的行業信息。
應用層的商業價值同樣巨大。舉例而言,Monica是一款基于Google瀏覽器的Chrome擴展插件,它可以幫助用戶撰寫文案、智能搜索。Google的數據顯示,其收入在每年6000萬美金左右,但其團隊也才僅僅11人。
百度創始人李彥宏也表達了類似的觀點,“對于創業者來說,卷大模型沒有意義,卷應用機會更大。移動互聯網時代操作系統只有安卓和iOS,但特別成功的應用卻很多,只有在大模型基礎上產生足夠多的AI原生應用,才是一個健康的生態環境。”
04
開源之爭
與操作系統類似,在大模型生態中,閉源與開源之爭也在愈演愈烈。前者的代表是GPT、百度千川等,而后者的代表則是Meta旗下的LLaMA、阿里通義千問等。
與閉源相比,開源大模型可以降低模型的二次開發門檻,有助于各個領域的廣泛應用和普及。更重要的是,大模型開源后可以獲得社會的加持,在開發者社區驅動的創新和改進下,可能獲得更好的發展。
2月,在Meta宣布開源LLaMA后,一個月內就涌現了許多擴展版本,影響較大的有斯坦福大學開發的Alpaca,以及來自加州大學伯克利分校、卡內基梅隆大學等開發的Vicuna。
谷歌工程師Luke Sernau甚至發文稱:“除非谷歌和OpenAI改變態度,選擇和開源社區合作,否則將被后者替代。”
7 月 19 日,Llama升級到Llama2。后者在 2 萬億的 token 上進行訓練,訓練數據增加了 40%,各項外部基準測試中皆優于其他開源語言模型。
“Llama2 出現之后,受打擊最大的應該就是 OpenAI,更多的公司會開始直接基于 Llama2 進行商業化開發,而不再購買它們的 API。”獵豹移動董事長傅盛表示。
然而,當下在模型層面上,GPT-4依然遙遙領先,據業內人士判斷,短期內這一領先優勢很難被顛覆。
而閉源的支持者們也有其道理所在。百度集團執行副總裁沈抖認為基礎模型的升級需要有效的反饋回路,開源模型發展的最大痛點在于反饋路徑不理想,可能會"走彎路", 事倍功半。
05
寫到最后
從2006年亞馬遜推出彈性計算云EC2算起,云計算已走過十余年時光。
從 AWS 起步時的牛刀小試,到如今已成長為一個巨大的生態體系,生長出了一大批如Salesforce、Shopify等的頭部企業。
如今,我們又站在了人工智能原生產品的新起點,大模型也將在這次巨變中發揮重要的影響力。