新闻

当前位置：458网址导航 > 新闻资讯 > 新闻头条 > 商汤国产中文大模型三个测试项目全面领先ChatGPT

商汤国产中文大模型三个测试项目全面领先ChatGPT

2023-06-22 458网址导航点击：1

在AI大模型领域，OpenAI的ChatGPT已经成为目前最热门的大模型，也是一个标杆。在所有三个测试项目中都超过了ChatGPT。

商汤科技自主研发的大型中文语言模型被称为“SenseChat 2.0”。日前发布的测试展示了MMLU、AGIEval、C-Eval这三个权威大型语言模型评估基准的结果。

从评测结果来看，“SenseChat 2.0”在三个测试集的表现都领先于ChatGPT，并且部分性能已经非常接近GPT4的水平，在大型语言模型研究方面取得了重要突破。

商汤国产中文大模型全面领先ChatGPT 部分接近GPT-4

这三个测试如下：

美国加州大学伯克利分校等大学构建的多任务测试评估集MMLU；

微软研究院推出AGIEval（包括中国高考、司法考试和美国SAT、LSAT、GRE、GMAT等）；

上海交通大学、清华大学、爱丁堡大学联合构建的汉语模型综合测试评估集；

商汤国产中文大模型全面领先ChatGPT 部分接近GPT-4

在MMLU测试中，“SenseChat 2.0”的综合得分为68.6，远远超过GLM-130B的得分（45.7分）。它还超过了 ChatGPT（67.3 分）、LLaMA-65B（63.5 分），仅落后于 GPT-4（86.4 分），排名第二。

在 AGIEval 测试中，《Consulting SenseChat 2.0》测得分数 49.91，遥遥领先于 GLM-130B（34.2 分）、LLaMMA-65B（34.0 分），并再次超越 ChatGPT（42.9 分），仅次于 GPT-4 56.4分。

在 AGIEval (GK) 评估子集中，“SenseChat 2.0”以 58.5 分领先，仅略落后于 GPT-4（58.8 分）。

在C-Eval测试中，“Consultation SenseChat 2.0”得分66.1，在18个参赛模型中仅次于GPT-4（68.7分），领先于ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B和国内外众多大模型。

截至目前，已有近千家企业客户申请、应用和体验了“SenseChat 2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力，以及“SenseChat 2.0”还在为客户服务的过程中，不断实现快速迭代和完善，以及知识的实时更新。

文章出处：快科技