6月27日,北京,科大讯飞举行讯飞星火升级发布会,星火大模型V4.0亮相。,科大讯飞董事长刘庆峰全程演讲,科大讯飞研究院院长刘聪真机实测,回答两个关键问题:,今天,中国的大模型底座能力到底怎么样?,今天,风起云涌的大模型究竟如何应用落地?,
以下是刘庆峰演讲(节选):,尊敬的各位领导、各位合作伙伴、各位院士专家、各位媒体朋友、线上的朋友们,大家好!热烈欢迎大家莅临讯飞星火V4.0的发布会现场。,

,
科大讯飞董事长刘庆峰,这一年多来,以大模型为主要带动的通用人工智能浪潮在全球风起云涌、高潮迭起。随着大模型技术研发和产业应用的不断深入,大家越来越关注两个非常关键的核心问题。,第一,今天中国大模型的底座能力到底怎么样?在中美科技日益激烈的人工智能领域博弈下,去年10月17日,英伟达因为美国商务部的要求,对中国所有能训练大模型的智能算力全面断供。就在6月25日,OpenAI也正式通知将从7月9日开始终止所有来自中国的API申请。在这个背景下,热热闹闹、风起云涌的通用人工智能浪潮,到底有没有自主可控的国产底座能力做支撑,这决定了我们在这条路上到底能走多远,决定了通用人工智能这一波浪潮;相当于PC和互联网的诞生,在人类历史上有深刻的意义,而我们能不能享受这波红利,能不能成为美国之后全球智慧涌现的第二极?,第二,大模型将会改变信息分发获取的方式,改变人机交互方式,改变内容生产方式,也会改变我们的整个产业形态和竞争格局,改变科研范式,这是大家都能看到的大趋势和未来。Gartner预测,到2026年现在80%的企业都要用到通用人工智能,而今天这个数字是5%左右。,大模型在今天风起云涌、如此大的投入下,究竟怎么落地?美好的未来摆在这里,当前第一步该怎么以科学合理投入,才能让大模型真正的刚需价值能够落地,能够看得见、摸得着,能够用统计数据来证明应用成效。我想关于底座技术、关于应用落地,是今天所有的关心大模型、关心通用人工智能的研究机构、企业、高校、科研院所以及政府部门共同关心的话题。今天讯飞星火V4.0的发布,我特别想跟大家分享我们这两方面的看法,给出科大讯飞对这两个问题的答案。,

,
讯飞星火APP的使用高峰期不是周末,而是工作日,实际上,从去年5月6日讯飞星火V1.0发布之后,大模型的各项能力都在快速提升,我们几乎每个月都会有一次非常重要的升级。以大家特别关注的文本写作为例,今天星火大模型写出来的东西已经不仅仅能让我们觉得不错,很多时候还会给我们很大的触动,给我们带来惊喜,甚至是感动。,今年6月7日上午,高考语文作文题新鲜出炉,当天中午就有很多人,包括机构、老师、投资人等,从各个角度来测星火在高考作文中的写作能力如何。非常自豪的是,大家都给了讯飞星火很高的评价。在“重庆日报新重庆客户端”上发布这篇文章,是6月7日12:10让大模型写的,在人工智能圈一个大佬云集的微信群里,被大家专门拿出来作为一个经典案例点赞。,

,大家可以看到,星火写的内容非常专业,很好地运用了排比、引用、论证等写作手法。当时有很多人给了评分,在满分是60分的情况下,最低的给了52分。大家读一下就会看到,在这中间有思辨的想法,引经据典也都写得非常好。这是没有任何人工干预生成的结果,是大模型自己写出来的,它的能力确实越来越强了。,当然,大家还会关心说今天大模型写作、写诗、作画能力在不断提升,而要真正地解决人类刚需的一个非常重要的标志就是科研,究竟大模型在赋能科研方面到底有没有成效?,以我们和中国科学技术大学生命学院刘海燕教授团队的合作为例,我们用大模型中基于条件扩散模型的蛋白质主链设计算法SCUBA-D,能够从头生成自然界不存在的蛋白质。实践证明这种生成的蛋白质在我们医学特别需要的领域中,它的结合亲和力与天然的蛋白质相当,甚至更强。最重要的是,我们把设计成功率从原来的0.1%提升到64%,提升了640倍,原来需要6个月做的设计,现在1天就做完了。这个已经不是在简单的科研验证阶段了,目前已经成功地设计了48个蛋白质,还在批量生产。这篇文章也在今年5月正式被《Nature》子刊接收,证明了我们在业界的领先地位。,

,我想说的是,大模型不仅可以写诗、作画,在改变工业、改变科研范式等方面已经实实在在发挥作用,包括我们和中国科学技术大学做的合成类的科学创新,比如说化学;还有与合肥综合性国家科学中心能源研究院合作,在推进大模型赋能核聚变整个过程中更快地预测、更好地应对各种各样的异常情况,这些都在快速推进之中,这是我们在科研上面的各种进展。,讯飞星火APP的使用高峰期不是周末,而是工作日;不是晚上,而是工作日的上午9:30和下午3:30。这说明大家真正用星火来解决工作中的刚需问题。我们一直说大模型应该是解放生产力、释放每个人想象力的,从这些数据就可以看到。,
基于全国产算力平台,全面对标GPT-4 Turbo,从去年5月6日的讯飞星火V1.0一路走到今天的讯飞星火V4.0的发布,有一点非常令我们自豪——讯飞星火大模型是基于全国产算力平台训练出来的。,去年10月24日,我们与华为联合软硬件一体化,科大讯飞提供了大量的算子库和算法资源,联合在安徽发布了中国首个国产万卡算力集群,这是中国第一个能训千亿以上浮点参数大模型的硬件平台。在这个硬件平台上,讯飞星火是中国第一个基于国产算力训练出来的全民开放的大模型。,什么叫全民开放大模型?就是国家网信办等八个部委联合认证,老百姓可以随即下载使用的大模型。当时是唯一的,今天讯飞星火V4.0发布还是唯一的,在全国产算力平台上训练的大模型,所有算法都是我们自主可控的,每一行码、每一个数据都是我们自己编写、自己清洗出来的大模型。一定程度上,今天星火大模型V4.0的发布对完全自主可控的大模型究竟走到了什么样的发展阶段,具有非常重要的标志意义。,那么在这个基础上,讯飞星火V4.0到底到了什么水平?,这是基于认知智能全国重点实验室和中国科学院人工智能产学研创新联盟、长三角人工智能产业链联盟,在去年6月份联合发布的国产通用认知智能大模型测评体系。这个体系一共有7个主要方面,涵盖了481个测试项,所有数据都是“背靠背”测试,数据都是随机动态产生的。非常高兴的是,讯飞星火V4.0已经实现了(大家公认最好的通用认知大模型)GPT-4 Turbo的对标,我们在文本生成、语言理解、知识问答、逻辑推理、数学这些能力上都已经实现超越,在代码和多模态能力上还有差距。,

,代码能力是我们非常关注的能力之一,因为它涉及未来的产业信息化和信息产业化的核心,而ChatGPT去年2月份通过谷歌二级程序员测试,当时的GPT-3.5用这个测试集只获得了60多分,GPT-4 Turbo今年1月份测试大概在80分,现在到86分,也在快速迭代和进步。我们预计在今年8月份,讯飞星火会达到现在86分以上的水平。,多模态能力还有所差距,是因为我们当前在文生视频上还没有算力,也不是下一步的核心重点,但是有生态伙伴一起做。,但在多模态方面,有一个非常重要的应用,就是图文识别。无论是医疗领域,能不能看懂电子病历、看懂体检报告;还是教育领域,能不能看懂笔记、看懂考卷;以及在司法、金融、科研、办公等各个领域的应用,图文识别能力都是至关重要的。,科大讯飞的图文大模型以及星火大模型中的图文能力,在国际上现在是先进的。我们与GPT-4o做了对比,因为GPT-4o在多模态方面,特别是图文上面比GPT-4 Turbo要强。所以,我们与5月14日OpenAI发布的GPT-4o最新版本相比,各个专门领域讯飞星火V4.0的效果都比它好,不仅仅在OCR直接识别上,关于版面的自动理解、更合理的版式认知结构等方面,我们都做得更强,从而使得今天要给大家看到的很多应用,它的落地更能够解决刚需。,在中文领域,讯飞星火V4.0实现了对标GPT-4 Turbo,那么在英文领域怎么样?这是国际各种主流机构给出来的,最主流的中英文测试集,绝大部分是英文,中间有理解推理、综合考试、数学科学和代码等维度的测试。大家可以看到,一共12项主流测试集,绝大部分是英文的,讯飞星火V4.0有8项实现了超越。这个数据大家可以直接调用我们的API自己去测,这是很令我们自豪的进展。