闻乐 发自 凹非寺量子位 | 公众号 QbitAI
好夸张……
参赛大模型全军覆没,通通0分。
谢赛宁等人出题,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。
到底是什么让一众领先模型一败涂地?
LiveCodeBench Pro:一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的实时基准测试。
题库还每日更新,来预防LLMs“背题”,不得不说这太狠了(doge)。
谢赛宁虽然也参与了这项工作,但他谦虚地说自己只是个啦啦队成员。
此前有报道称,LLM编程现在已超越人类专家,但本次测试结果表明并非如此。
表现最佳的模型,在中等难度题上的一次通过率仅53%,难题通过率更是为0。
即使是最好的模型o4-mini-high,一旦工具调用被屏蔽,Elo也只有2100,远低于真正大师级的2700传奇线。
谢赛宁表示:
击败这个基准就像AlphaGo击败李世石一样。我们还没有达到那个水平——甚至对于有明确可验证结果的问题也是如此。
LiveCodeBench Pro:动态题库考验LLMs算法逻辑深度测试是如何构建的
该基准由一众奥林匹克获奖者构建,在比赛结束后立即收集每道Codeforces、ICPC和IOI题目,在互联网上出现正确答案之前捕获每个问题。
每日更新题库,以减少数据污染,保证评估环境的真实性与挑战性。
测试收录了584道顶流竞赛题,团队手动对每个问题进行标注,标注内容包括解决每个任务所需的关键技能,并根据问题的认知焦点将题目分为知识密集型逻辑密集型观察密集型三大类。
还将题目分为三个难度级别,这并非是人工挑选的,而是通过正态分布自动选择
例如,所有Codeforces问题的评分在2000分以上的都会被归入困难等级。
模型具体表现
团队会基于题目背后的算法思想进行分类,记录Codeforces官方难度评级(对应Elo分数下50%的成功率),同时梳理关键观察点、常见陷阱及边缘案例,为评估提供多维度参考。
在测试过程中,团队对模型和人类专家提交的每个解决方案,记录其判定结果(如通过、答案错误、超时等),并标注根本原因(思路层面错误或实现层面错误)。
如果代码无法通过题目自带的样例输入输出,会标记 “样例未通过”。
结合题目分类与提交结果,对比人类专家的解题模式,分析模型在不同难度(简单 / 中等 / 困难)、题型(知识密集型 / 逻辑密集型 / 观察密集型)下的表现,定位模型在算法推理、样例利用及边缘案例处理等方面的短板。
团队一共测试了22款大模型,并根据表现给出了完整榜单,大家可以自行查看任何一个模型在每一个问题上给出的解决方法。
同时绘制了每一个模型的评分趋势,可供自由选择想要了解的模型。
测试结果显示
模型在知识密集型和逻辑密集型问题上表现更好,擅长 “死记硬背”(如数据结构模板),但在观察密集型问题或案例工作中表现较差,搞不定 “灵光一现” 的贪心、博弈题。
与人类相比,o3-mini 等模型在精确、无错误的实现方面展现出更高级的技能,但在算法设计方面逊色。
LLMs擅长实现类问题,但在需要精细算法推理和复杂案例分析的题目上表现欠佳,还常给出看似正确实则错误的解释。
LLMs经常无法正确通过题目提供的示例输入,显示其对给定信息的利用不充分。
LLMs很大程度上依赖工具增强(如终端访问、网络搜索),而非自身推理能力。
团队还增加了尝试次数(pass@k),并发现这样可以显著提升LLMs在中简单题的表现,但对难题依旧无力。
比如,通过增加o3-high模型的尝试次数来测试其性能,但无论尝试多少次,它仍然无法解决任何一个困难分区的题目。
启用推理功能后,LLMs在组合数学等知识密集型题目中提升明显,但在观察密集型题目中提升有限。
研究员还透露,每个季度,团队都将发布一个完全全新的评估集,保证数据的时效性。
团队超半数成员为华人
LiveCodeBench Pro团队由一众奥林匹克竞赛得奖者组成,其中超半数成员为华人。
该项目的主要负责人郑子涵毕业于成都外国语学校,现于纽约大学本科在读,曾代表纽约大学参加ICPC世界总决赛,获得第二名。
他先后在腾讯、英伟达担任研发实习生,今年2月份以实习生的身份进入OpenAI。
另一位负责人柴文浩于2023年在浙江大学完成本科学业,硕士就读于华盛顿大学,今年9月将前往普林斯顿大学计算机科学专业就读博士。
他曾于Pika Labs和微软亚洲研究院实习,先前研究主要涉及视频理解和生成模型。
他领导开发了MovieChat,这是第一个用于长视频理解的超大多模态模型。
并且,他在ICLR、CVPR、ICCV等顶会期刊发表过相关研究论文。
该项目的其他参与者分别来自加州大学、普林斯顿大学等,这是一支非常年轻的队伍。
论文地址:https://arxiv.org/abs/2506.11928项目地址:https://github.com/GavinZhengOI/LiveCodeBench-Pro排行榜:https://livecodebenchpro.com/
[1]https://x.com/ZihanZheng71803/status/1934780656665677928[2]https://x.com/rohanpaul_ai/status/1934751145400111572[3]https://x.com/sainingxie/status/1934786355969851630
— 完 —
《欧–美–性–交–黄–片》,《P6F3X2M7T9QJ8L1B4WZR》少女弹珠汽水1-4集免费观看樱花
“男男被c❎黄漫画动漫视频”
学生的下面隐私㊙️图片
……
06月21日
“18禁色情👅❤️在线搜索”货车追尾司机被困 消防队员快速救援
↓↓↓
06月21日,(文化中国行)焦溪古镇传承舌尖上的非遗:“豆腐已到第七代传人”,免费jk❌❌❌白丝乳,宁荣荣被挤奶羞羞动漫,成人国产精品㊙️蜜柚视频刘晓庆,被老师C嗯~~哼~~唧~
06月21日,专家:海南创建国家植物园有利于热带资源保存,男欢女爱免费观看电视剧大全下载,9在线无码精品㊙️入口男同,受❌高潮a,香蕉成人🔞视频下载
06月21日,镜观·足迹|携手同行,构建中拉命运共同体,美女裸体全身秘遮挡奶,没有黄段子的无聊世界,99精品X❌XXX❌X片,校草被小混混脱裤玩j涩涩文
06月21日|“等了4年” 张之臻迎澳网首胜 中国军团晋级第1人|符玄白丝腿缠腰娇喘|千仞雪被狂揉下部❌拔萝卜|啊学长轻点奶头91|伊吕波涩图
06月21日|(身边的变化)山西永和:电力赋能乡村振兴 小村庄实现大变化|ai美女❌❌网站APP|扌斗阝月旧版本|小南被❌🐻黄漫扒衣服|美女裸体❌羞羞尿裤子网站
06月21日|外媒:丹麦女王将于今日正式退位 丹麦历史将翻开新一页|成人抖抈app免费版|娇妻边打电话边被躁BD在|女人扒开屁股给男人捅三人行|91丨国产丨白浆㊙洗澡……
06月21日,《海南省陆生野生动物及其栖息地保护规划(2024-2030年)》公开征求意见,911在线无码精品秘入口火影,日韩裸体裸乳🍑在线看软件,大胸美女爆乳❌舞动屁股,另类老妇videos另类
06月21日,港铁本地服务总客量恢复至疫情前逾九成,白丝美女后入高清无码,圣女胸大扒开腿㊙️让人桶爽动漫,Japanese❌❌❌日本,十八禁🔞网站在线观看免费视频
06月21日|伊朗最高领袖首次回应以色列袭击|免费A漫 - 禁漫天堂|胡桃撕内衣👙挠奶头动漫|精品麻豆剧传媒AV国产九九九|美女裸体无P图网站入口
06月21日,冬天水果也丰收、竹林空气变成钱……智慧管理带来乡村新发现,Porno270HD🥰,私は赤ちゃんが好きです怎么读,美女撒尿㊙️偷拍,Ai成人绘画大尺度写真
06月21日,中外专家热议新质生产力:人工智能提供关键驱动力,猪配女人性视频,大胸❌动漫❌3d扶她,少妇avvcx,修女被❌吸乳羞羞动漫
06月21日,兴凯湖冬捕节启幕 中外游客争睹“冰湖腾鱼”壮观场景,重口变态虐黄网站,火影忍者纲手自来也,GayFuckGay无套video,日本❌❌❌❌69少妇
06月21日|中国正能量丨奋进路上的中国式现代化|.精品人妻一区二区三区|咩祖调教脚奴VK|18🈲🍆🍆🍆🍆看片"|13分钟阿娇被躁5分钟视频
06月21日|推动高质量发展·权威发布|广西:持续擦亮“山清水秀生态美”金字招牌|无知弓虽制成长中|美女扒开胸罩👙给男生桶|裸体男生被绑起来玩弄J|用力⋯别停⋯受不了怀孕小说
06月21日|当事男子被行拘!警方通报奔驰插队事件 被砸车一方回应|美女被爆❌羞羞视频网站动漫|江楠楠裸体被❌羞羞小说|亚洲国产精品㊙️麻豆蝴蝶传媒|女初 高中 拍击 打屁股网站
胡塞称在亚丁湾袭击美国军用货轮,退休继续工作受伤能否享受工伤待遇|2024中韩媒体论坛在韩举行|亲妺妺的小泬让我进去|涩里番app黄版❤网站|十大色情禁片未删减版百度云|少女前线hk416本子
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
闽公网安备 35010302000113号