正大期货｜香港正大期货-官网

您的位置：主页 > 公司动态 > 公司新闻 > 公司新闻

历时400多天，国产大模子周全赶超GPT-4？-期货开

2024-05-13 09:57 来源：正大期货作者：正大期货点击：次

赶超GPT-4的阶段性升级，可以看作是国产大模子有序迭代部署、不停拉近差距的标志，切莫像手机跑分那样，在太过营销的作用下，沦为被群嘲的工具。

稍微注意下近期的新闻，“赶超GPT-4”正在成为国产大模子的新热门。

百度文心一言、商汤日日新以及阿里云刚刚宣布的通义千问2.5，均已迈入“周全赶超GPT-4”阵营。

把时间线稍微拉长一些的话，已往泰半年时间里，“逾越GPT-4”的新闻可谓习以为常，纵然在报道中刻意加上了多项基准、部门指标等前缀，依然赚足了眼球，成为国产大模子佐证自身能力的有力指标。

简朴做个复盘的话，国产大模子对GPT-4的追赶已经举行了400多天，其中“赶超历程”可以粗分为三个阶段。

*阶段：部门性能逾越GPT-4

2023年3月14日，OpenAI正式推出了GPT-4，彼时大多数国产大模子还未开放，少数内测大模子的对照工具照样GPT-3。作为业界标杆的GPT-4，就像是科幻照进了现实，被无数人捧上神坛。

但在短短半年后，GPT-4就泛起在了国产大模子厂商的对照名单里。

2023年8月尾，商汤科技对外宣布了一则新希望：拥有1230亿个参数的“书生·浦语”，在全球51个着名评测集共计30万道问题聚集上，测试成就排名全球第二，并在综合考试agieval、知识问答commonsenseqa、阅读明白和推理的十项评测中位列*，分数跨越风头正盛的GPT-4。

2023年10月17日的“天生未来”宣布会上，百度正式宣布了文心大模子4.0版本，李彦宏在现场依次演示了大模子的明白、天生、逻辑和影象四大焦点能力的特点与应用场景。只管没有给出评测数据，李彦宏却自信地示意：文心大模子4.0的综合水平，“与GPT-4相比绝不逊色”。

国产大模子赶超GPT-4的序幕正式拉开，往后一两个月里，不少大模子给了这样的营销口径：整体能力已经不输于GPT-3.5，而且在部门性能指标上最先逾越GPT-4。

第二阶段：整体性能迫近GPT-4

时间来到2024年头，海内的“百模大战”进入收敛期，一些不被资源市场认可的大模子，逐渐成了一个数字，只有几家科技大厂和独角兽仍活跃在大模子一线。“活下来”的大模子，势需要在能力上证实自己。

综合性能迫近GPT-4，最先成为新的营销话术。

2024年1月中旬的智谱AI手艺开放日上，正式宣布了新一代基座大模子GLM-4。根据智谱AI官方的说法：在权威的英文测试榜单中，GLM-4已经整体迫近GPT-4，平均能到达GPT-4 90%以上的水平，在个体项目上显示持平；而在海内企业加倍看重的中文义务上，GLM-4的显示周全跨越GPT-4。

极氪赴美上市，李书福打出王牌

同样是在2024年1月，科大讯飞宣布了星火认知大模子V3.5，在逻辑推理、语言明白、文本天生、数学答题、代码、多模态等焦点能力均显著提升，其中语言明白、数学能力已经跨越GPT-4 Turbo，代码能力到达GPT-4 Turbo 96%，多模态明白到达GPT-4V 91%。“在中文明白方面，甚至遥遥*。”

转头来看，智谱AI和科大讯飞的营销战略照样有些“守旧”，百川智能在统一时间段宣布的Baichuan 3，对外示意已经在CMMLU、GAOKAO等中文评测中逾越GPT-4。

第三阶段：周全赶超GPT-4 Turbo

2023年11月的OpenAI首届开发者大会，GPT-4 Turbo可以说整个流动的焦点，不仅比GPT-4更伶俐，文本处置的上限更高，推理的速率更快，价钱也更廉价，国产大模子随即迎来了新的对照工具。

先是2024年4月份宣布的日日新5.0，拥有6000亿参数，并在宣布会上引用了OpenCompass的评测数据：日日新5.0到达或逾越了GPT-4 Turbo版本，险些全方位碾压了同期宣布的 Llama 3-70B。

再然后就是阿里云刚刚宣布的通义千问2.5，凭证媒体报道中的说法：模子性能周全赶超GPT-4-Turbo，成为“地表最强”中文大模子；通义千问1100亿参数开源模子在多个基准测评收获*成就，逾越Meta的Llama-3-70B，成为开源领域最壮大模子。

可以笃定的是，日日新5.0和通义千问2.5只是个最先，后续将有更多国产大模子在能力上逾越GPT-4-Turbo。

事实科大讯飞早已预热了上半年宣布星火认知大模子V4.0的新闻，将周全临标GPT-4系列；文心一言4.0的宣布已经跨越半年，不清扫新版本正在准备中，且也许率会在性能上再上一个台阶……

“跑分”的意义在那里？

不管是一最先的“部门性能逾越”，照样现在举行中的“周全赶超”，依据都是第三方评测效果，或者说大模子厂商的主观判断。好比商汤和阿里云争相引用的OpenCompass，就是上海人工智能实验室开源的大模子评测平台。

对于一些大模子着迷于刷榜、跑分的征象，上海人工智能实验室领军科学家林达华教授曾在媒体采访中直言：通过题海战术提高峻模子成就，对于模子现实能力的反映是失真的，影响了模子研发团队的改善偏向和模子的商业落地，“高分低能”危险的是机构自己；榜单上任何详细的名字只是大模子发展历程中无数次测试中的一次，一时的排名崎岖并不真正反映模子的能力。

况且许多大模子测试集为了公然透明，测试问题或者提要都是公然的，大模子厂商不难通过“针对性的训练”来提高分数。只要将足够的的测试题喂给大模子，在开卷考试的机制下，分数总不会太低。

也就是说，分数高并纷歧定代表大模子的能力强。“跑分”的意义仅仅是让客户或开发者对大模子能力有一个开端的熟悉，最终的评估因素永远是“能不能解决问题”，“能不能在场景中带来实着实在的生产力”。

稀奇是在大模子走向落地应用的趋势下，一味炒作“逾越GPT-4”、“跑分*”，妄顾落地应用的实效，可能会适得其反。以大模子应用中对照常见的财报剖析为例，若是大模子连一家企业的财报都看不懂，再高的盘算分数也不会让客户信服，反而会被清扫在互助名单外。

而参考中信证券等机构的研究讲述，现在OpenAI的GPT-5正处于红队测试阶段，有望在今年炎天正式宣布，可能在多模态明白、长文本输入、zero-shot学习等方面实现重大突破，且性能将远超GPT-4。纵然国产大模子破费400多天追平了GPT-4，在相当长一段时间里，仍将处于追赶的姿态。

大模子的价值是解决一样平常问题的生产力工具，赶超GPT-4的阶段性升级，可以看作是国产大模子有序迭代部署、不停拉近差距的标志，切莫像手机跑分那样，在太过营销的作用下，沦为被群嘲的工具。

上一篇：投资界24h | 招商资源在辽宁提议50亿新基金；百度

下一篇：5.8黄金回调后会反弹吗？今日黄金原油盘面分析