(資料圖片)
圖說:活動現場 采訪對象提供
新民晚報訊(記者 葉薇)為提升語料數據供給水平,推動大模型產業高質量發展加速應用創新與行業落地,由中國大模型語料數據聯盟主辦的數說新語·開放日首場活動昨天在上海人工智能實驗室舉行。
開放日上,中國專利技術開發公司、上海仲裁委員會、上海圖書館(上海科學技術情報研究所)、上海數據交易所、上海市社會信用促進中心、上海蜜度信息技術有限公司、上海鈦米機器人股份有限公司、華東師范大學出版社有限公司、上海城建城市運營(集團)有限公司9家新成員單位加入“中國大模型語料數據聯盟”,將共同為大模型技術深度發展與高水平應用提供更多元的數據要素保障。聯盟發起單位代表為他們頒發了入盟紀念證書。
蜜度信息首席技術官劉益東發布了開源文本數據集蜜巢·花粉1.0,該數據集以互聯網媒體數據為主,經過過濾清洗、多條件去重等精細化處理,來源可靠、質量高,并可持續穩定更新,截至目前,數據總量已超一億條該數據集還經過了資深律師進行了數據合規前置審核。
蜜巢·花粉1.0已被應用于蜜度系列大模型的訓練,在政務及媒體等垂直領域提供知識問答與內容生成、分析報告自動生成、文稿內容審校與潤色改寫等各類智能生成式服務。目前,各項服務已得到了用戶的良好反饋。借此契機,蜜度將進一步降低大模型技術探索和落地的門檻,加速應用創新與行業落地。據悉,蜜巢·花粉1.0是繼8月14日書生·萬卷發布以來,聯盟發布的第二個開源語料數據集。同時,多個聯盟成員單位也已形成了語料數據開源方案,將陸續進入發布隊列。
未來,聯盟將持續發揮好“朋友圈”作用,凝聚各方資源,發揮各成員單位優勢,群策群力,共同推動大模型語料數據高水平供給,為我國大模型發展做好數據支撐。
關鍵詞: