互联网品牌内容营销专家

蚂蚁全媒体主办

新锐视角 ■ 区块链资讯平台

查找

讯飞星火大模型问世即巅峰?获得SuperCLUE评测基准官方认证!
2023-05-11 08:07:13来源:
5月9日,中文通用大模型综合性评测基准SuperCLUE正式发布。该基准测试主要关注以下问题:中文大模型在不同任务上的表现如何?与国际代表性模型相比,中文大模型的表现达到了何种程度?中文大模型与人类表现相比如何?包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比。

SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。其中专业能力包括中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。其发布的总榜单显示,GPT-4排名第一,ChatGPT排名第二,星火认知大模型紧随其后排名第三,也充分说明了星火大模型尽管和GPT还有差距,但已经是国产大模型的佼佼者。

在5月6日发布的讯飞星火认知大模型成果发布会上,科大讯飞董事长刘庆峰就向我们展示了星火认知大模型的商业落地成果。首先就是针对学生学习问题推出的AI学习机,在讯飞星火大模型的优化下,像老师一样层层批改点评,让作文批改更高效,启发孩子写作思路。对于办公人群来说,他们可以使用智能办公本,不仅可以根据手写要点自动生成会议纪要,它还可以对文本进行润色等,轻松将一篇语音转写文稿规整成书面化内容,阅读效率提升50%,这只是讯飞星火的一部分优势。

星火大模型在表现出“智慧”的同时,也有一些质疑的声音存在。有网友指出,星火大模型在一些简单的数学题中表现不足。还有网友用一些模糊到包浆的截图质疑星火大模型是谁开发的,跟OpenAI有什么关系。

针对数学问题,在星火大模型官网上线的“QA指南”中,科大讯飞针对数学问题为何回答不准指出,数学计算本身就是非常难的问题,chatgpt效果也一般,并提出未来针对这类特别难的问题,除了大模型算法和数量的迭代,还会深度分析技术原理,持续提升计算效果,达到实用水平。据发布会科大讯飞董事长刘庆峰表示,目前星火认知大模型在数学任务上的整体效果优于ChatGPT。

其实在星火大模型发布会上,科大讯飞董事长刘庆峰也坦言,目前大模型技术还有待攻克的缺陷,比如新知识难以及时更新、事实类问答容易“张冠李戴”,史实、传统典籍等容易“编造情节”等,但这些问题在今年会有明显的改进。此外,星火大模型才刚刚发布,现在谈对标ChatGPT也为时过早。

当我们面对困难时,我们往往会感到沮丧和无助。但是,我们需要记住的是,困难是生活中不可避免的一部分。它们可以帮助我们成长和变得更加坚强。就像科大讯飞今日的成就不是偶然,而是技术团队深耕人工智能二十余载的坚持与风险。我相信,科大讯飞凭借不忘初心的态精神为中国AI事业奉献,在不久的将来讯飞星火认知大模型一定还会有质的飞跃!

  Top