商汤国产中文大模型三个测试项目全面领先ChatGPT
在AI大模型领域,OpenAI的ChatGPT已经成为目前最热门的大模型,也是一个标杆。在所有三个测试项目中都超过了ChatGPT。
商汤科技自主研发的大型中文语言模型被称为“SenseChat 2.0”。日前发布的测试展示了MMLU、AGIEval、C-Eval这三个权威大型语言模型评估基准的结果。
从评测结果来看,“SenseChat 2.0”在三个测试集的表现都领先于ChatGPT,并且部分性能已经非常接近GPT4的水平,在大型语言模型研究方面取得了重要突破。
这三个测试如下:
美国加州大学伯克利分校等大学构建的多任务测试评估集MMLU;
微软研究院推出AGIEval(包括中国高考、司法考试和美国SAT、LSAT、GRE、GMAT等);
上海交通大学、清华大学、爱丁堡大学联合构建的汉语模型综合测试评估集;
在MMLU测试中,“SenseChat 2.0”的综合得分为68.6,远远超过GLM-130B的得分(45.7分)。它还超过了 ChatGPT(67.3 分)、LLaMA-65B(63.5 分),仅落后于 GPT-4(86.4 分),排名第二。
在 AGIEval 测试中,《Consulting SenseChat 2.0》测得分数 49.91,遥遥领先于 GLM-130B(34.2 分)、LLaMMA-65B(34.0 分),并再次超越 ChatGPT(42.9 分),仅次于 GPT-4 56.4分。
在 AGIEval (GK) 评估子集中,“SenseChat 2.0”以 58.5 分领先,仅略落后于 GPT-4(58.8 分)。
在C-Eval测试中,“Consultation SenseChat 2.0”得分66.1,在18个参赛模型中仅次于GPT-4(68.7分),领先于ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B和国内外众多大模型。
截至目前,已有近千家企业客户申请、应用和体验了“SenseChat 2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,以及“SenseChat 2.0”还在为客户服务的过程中,不断实现快速迭代和完善,以及知识的实时更新。
文章出处:快科技