GLM 技術團隊宣布再次升級 ChatGLM-6B,發布 ChatGLM2-6B。ChatGLM-6B 于 3 月 14 日發布,截至 6 月 24 日在 Huggingface 上的下載量已經超過 300w。
截至 6 月 25 日,ChatGLM2 模型在主要評估 LLM 模型中文能力的 C-Eval 榜單中以 71.1 的分數位居 Rank 0;ChatGLM2-6B 模型則以 51.7 的分數位居 Rank 6,是榜單上排名最高的開源模型。
ChatGLM2-6B 是開源中英雙語對話模型 ChatGLM-6B 的第二代版本,在保留了初代模型對話流暢、部署門檻較低等眾多優秀特性的基礎之上,ChatGLM2-6B 引入了如下新特性:
(資料圖片僅供參考)
評測結果
以下為 ChatGLM2-6B 模型在 MMLU (英文)、C-Eval(中文)、GSM8K(數學)、BBH(英文) 上的測評結果。
推理性能
ChatGLM2-6B 使用了 Multi-Query Attention,提高了生成速度。生成 2000 個字符的平均速度對比如下
Multi-Query Attention 同時也降低了生成過程中 KV Cache 的顯存占用,此外,ChatGLM2-6B 采用 Causal Mask 進行對話訓練,連續對話時可復用前面輪次的 KV Cache,進一步優化了顯存占用。因此,使用 6GB 顯存的顯卡進行 INT4 量化的推理時,初代的 ChatGLM-6B 模型最多能夠生成 1119 個字符就會提示顯存耗盡,而 ChatGLM2-6B 能夠生成至少 8192 個字符。
項目團隊也測試了量化對模型性能的影響。結果表明,量化對模型性能的影響在可接受范圍內。
示例對比
相比于初代模型,ChatGLM2-6B 多個維度的能力都取得了提升,以下是一些對比示例。
數理邏輯
知識推理
長文檔理解