如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

2025-06-23 16:50:14

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
广告位810*200
相关阅读
为什么欧美影视喜欢露点?

为什么欧美影视喜欢露点?

这么喜欢看露点的 那推荐一部俄罗斯的片子《契卡》 从头到尾都...

2025-06-22
如何看待现在的前端?

如何看待现在的前端?

问一下下面的问题,如果能答出来,就是有比较多对应实际工作经验...

2025-06-22
剪映网页版要下线了,有没有字节的同学来说下是为啥啊?

剪映网页版要下线了,有没有字节的同学来说下是为啥啊?

剪映客户端是QT写的,界面用Quick去搭建的,没有玩Ele...

2025-06-22
一名女子在杭州万象城遭挟持被捅 20 多刀,隆胸***体救了一命,这反映出哪些公安系统的问题?

一名女子在杭州万象城遭挟持被捅 20 多刀,隆胸***体救了一命,这反映出哪些公安系统的问题?

杭州警察之前还有一个上大分的操作,直接给网约车司机打电话,让...

2025-06-22
比亚迪最近绩效减半,这是卸磨杀驴么?

比亚迪最近绩效减半,这是卸磨杀驴么?

我的看法是资金链快断了 5月增长的销量百分比太低,无法供养固...

2025-06-22