强制捆绑酷刑调教男男 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置：欧博abg → 专题合集 → P6F3X2M7T9QJ8L1B4WZR

大模型全员0分！谢赛宁华人团队，最新编程竞赛基准排行榜出炉

大模型全员0分！谢赛宁华人团队，最新编程竞赛基准排行榜出炉

闻乐发自凹非寺量子位 | 公众号 QbitAI

好夸张……

参赛大模型全军覆没，通通0分。

谢赛宁等人出题，直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。

到底是什么让一众领先模型一败涂地？

LiveCodeBench Pro：一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的实时基准测试。

题库还每日更新，来预防LLMs“背题”，不得不说这太狠了（doge）。

谢赛宁虽然也参与了这项工作，但他谦虚地说自己只是个啦啦队成员。

此前有报道称，LLM编程现在已超越人类专家，但本次测试结果表明并非如此。

表现最佳的模型，在中等难度题上的一次通过率仅53%，难题通过率更是为0。

即使是最好的模型o4-mini-high，一旦工具调用被屏蔽，Elo也只有2100，远低于真正大师级的2700传奇线。

谢赛宁表示：

击败这个基准就像AlphaGo击败李世石一样。我们还没有达到那个水平——甚至对于有明确可验证结果的问题也是如此。

LiveCodeBench Pro：动态题库考验LLMs算法逻辑深度测试是如何构建的

该基准由一众奥林匹克获奖者构建，在比赛结束后立即收集每道Codeforces、ICPC和IOI题目，在互联网上出现正确答案之前捕获每个问题。

每日更新题库，以减少数据污染，保证评估环境的真实性与挑战性。

测试收录了584道顶流竞赛题，团队手动对每个问题进行标注，标注内容包括解决每个任务所需的关键技能，并根据问题的认知焦点将题目分为知识密集型逻辑密集型观察密集型三大类。

还将题目分为三个难度级别，这并非是人工挑选的，而是通过正态分布自动选择

例如，所有Codeforces问题的评分在2000分以上的都会被归入困难等级。

模型具体表现

团队会基于题目背后的算法思想进行分类，记录Codeforces官方难度评级（对应Elo分数下50%的成功率），同时梳理关键观察点、常见陷阱及边缘案例，为评估提供多维度参考。

在测试过程中，团队对模型和人类专家提交的每个解决方案，记录其判定结果（如通过、答案错误、超时等），并标注根本原因（思路层面错误或实现层面错误）。

如果代码无法通过题目自带的样例输入输出，会标记 “样例未通过”。

结合题目分类与提交结果，对比人类专家的解题模式，分析模型在不同难度（简单 / 中等 / 困难）、题型（知识密集型 / 逻辑密集型 / 观察密集型）下的表现，定位模型在算法推理、样例利用及边缘案例处理等方面的短板。

团队一共测试了22款大模型，并根据表现给出了完整榜单，大家可以自行查看任何一个模型在每一个问题上给出的解决方法。

同时绘制了每一个模型的评分趋势，可供自由选择想要了解的模型。

测试结果显示

模型在知识密集型和逻辑密集型问题上表现更好，擅长 “死记硬背”（如数据结构模板），但在观察密集型问题或案例工作中表现较差，搞不定 “灵光一现” 的贪心、博弈题。

与人类相比，o3-mini 等模型在精确、无错误的实现方面展现出更高级的技能，但在算法设计方面逊色。

LLMs擅长实现类问题，但在需要精细算法推理和复杂案例分析的题目上表现欠佳，还常给出看似正确实则错误的解释。

LLMs经常无法正确通过题目提供的示例输入，显示其对给定信息的利用不充分。

LLMs很大程度上依赖工具增强（如终端访问、网络搜索），而非自身推理能力。

团队还增加了尝试次数（pass@k），并发现这样可以显著提升LLMs在中简单题的表现，但对难题依旧无力。

比如，通过增加o3-high模型的尝试次数来测试其性能，但无论尝试多少次，它仍然无法解决任何一个困难分区的题目。

启用推理功能后，LLMs在组合数学等知识密集型题目中提升明显，但在观察密集型题目中提升有限。

研究员还透露，每个季度，团队都将发布一个完全全新的评估集，保证数据的时效性。

团队超半数成员为华人

LiveCodeBench Pro团队由一众奥林匹克竞赛得奖者组成，其中超半数成员为华人。

该项目的主要负责人郑子涵毕业于成都外国语学校，现于纽约大学本科在读，曾代表纽约大学参加ICPC世界总决赛，获得第二名。

他先后在腾讯、英伟达担任研发实习生，今年2月份以实习生的身份进入OpenAI。

另一位负责人柴文浩于2023年在浙江大学完成本科学业，硕士就读于华盛顿大学，今年9月将前往普林斯顿大学计算机科学专业就读博士。

他曾于Pika Labs和微软亚洲研究院实习，先前研究主要涉及视频理解和生成模型。

他领导开发了MovieChat，这是第一个用于长视频理解的超大多模态模型。

并且，他在ICLR、CVPR、ICCV等顶会期刊发表过相关研究论文。

该项目的其他参与者分别来自加州大学、普林斯顿大学等，这是一支非常年轻的队伍。

论文地址：https://arxiv.org/abs/2506.11928项目地址：https://github.com/GavinZhengOI/LiveCodeBench-Pro排行榜：https://livecodebenchpro.com/

[1]https://x.com/ZihanZheng71803/status/1934780656665677928[2]https://x.com/rohanpaul_ai/status/1934751145400111572[3]https://x.com/sainingxie/status/1934786355969851630

— 完 —

相关推荐：小舞脱裤子自慰❌无码驲屄影视动漫furry裸体被❌羞羞嗯网站

分享： 2025-06-21 06:09:31 共81款

电脑

FC2PPV完全初撮り♥ 236.28MB / 电视版下载 2024-10-23

查看详情

进入羊的水门视频
法国少妇婬乱视频免费观看 2.25MB / 电脑版下载「含模拟器」 2024-10-23

查看详情

JoeJonas穿内裤上街
宁荣荣主动掀开内裤给我玩 1.4MB / 最新版下载 2024-10-23

查看详情

🔞❌♋免费下载
成人今夜app下载 453.28MB / 2025官方最新版本下载 2025-03-04

查看详情

粉色视频🈲🈲🈲下载安装
原神芙宁娜裸体被❌涩涩 75.29MB / 安装包下载 2025-03-20

查看详情

鲍鱼直播
91女神高潮喷水在线观看 1.20MB / app下载 2024-09-27

查看详情

自慰喷水私人影院九一制片厂
女S调教男m视频 2.77MB / 完整版下载 2025-01-03

查看详情

OTK实践拍击视频一个小时

安卓

刘涛裸体毛毛片-百度贴吧 1.1MB / 中文版下载 2025-03-06

查看详情

免费🔞无码进口动漫蘑菇
美杜莎啪啪婬荡舒服动漫小说 2.93MB / PC端下载 2024-10-23

查看详情

日向花火被❌同人本子
ai聊骚❌❌18禁女友 2.60MB / 下载官方版 2025-02-15

查看详情

少年骇客同人18❌禁播天堂
丰裕纵满3 828.2MB / 安装包下载 2024-10-18

查看详情

粗大的🐔巴再里面导出白浆网站
www.17c.com 2.31MB / 2025官方最新版本下载 2024-12-13

查看详情

裸体初音未来被❌到爽视频网站
18男生🍆❌男生🍑里黄瓜瓜 922.15MB / 2025官方最新版本下载 2024-10-12

查看详情

动漫18涩涩动漫人物下载
六花端口下载网址 958.6MB / 官方版下载 2025-03-11

查看详情

国产高潮又爽又无遮挡又免-费
动漫被❌到爽🔞流游戏 1.81MB / 完整版下载 2024-10-08

查看详情

3d原神裸体啪啪❌动漫
91精品无码性色Av 2.44MB / 2025官方最新版本下载 2024-10-30

查看详情

давай黑人видео
女人又爽❌又黄❌真人丶 474.7MB / 下载官方版 2025-03-04

查看详情

亚洲AV㊙️无码一区妃月
欧美做受❌❌❌❌高潮 805.6MB / PC端下载 2024-09-28

查看详情

银龙王的堕落1～4
3D原神祼体啪啪❌H漫画软件 605.25MB / app下载 2024-02-26

查看详情

动漫美女㊙️无遮挡免费
日本校花🌸开腿让我🌸 1.11MB / 手机版下载 2024-04-18

查看详情

鬼子暴行女兵电影免费播放
校园H宿舍自慰 2.80MB / 完整版下载 2024-09-14

查看详情

扒开动漫❌狂揉❌羞羞3d火影
男同精品AV㊙️无码网站 1.47MB / 手机版下载 2024-02-02

查看详情

18禁无码无无遮挡永久免费
3d男男♂动漫啪啪网站 2.72MB / 手机版下载 2025-03-26

查看详情

亚洲第243页
英雄联盟本子h18资源 1.68MB / 官方版下载 2024-07-29

查看详情

好爽⋯好紧⋯宝贝别夹免费
91麻豆精产国品一二三产品 1.75MB / 官方版下载 2024-01-17

查看详情

男生自慰时把精子喷在我脚上
💚奇优影院️手机在线观看 2.25MB / app下载 2024-01-11

查看详情

中国肥熟女❌❌❌
怀孕三个月前可以坐飞机吗? 1.86MB / 2025官方最新版本下载 2024-01-09

查看详情

乳头今晚被老公挤出乳液
男c男🔞黄㊙️❌B站 591.26MB / PC端下载 2024-01-05

查看详情

91黑料㊙️入口一福利姬
被伦流澡到高潮苏软软 2.96MB / 手机版下载 2025-02-14

查看详情

女儿的美白蚌埠2中的字头是什么
x0×0少妇 174KB / v1.0 安卓版 2024-01-04

查看详情

Vore隐藏网站
白袜少年被绑脱裤玩j 640.8MB / 官方版下载 2024-01-02

查看详情

3d雷神将军❌❌❌裸体
嗯～啊～别揉了～尿了紫金视频 1.17MB / 完整版下载 2024-06-07

查看详情

男私㊙️Gay网站的屁股
SweetieFox合集全解锁版 1.72MB / 手机版下载 2023-12-01

查看详情

mmd跳啪18❌18禁metube.me
91成人在线观看喷潮数学 866.11MB / 下载官方版 2024-10-16

查看详情

超污18AcFun网址下载
美女下部私密㊙️流牛奶 2.51MB / 下载官方版 2023-11-08

查看详情

8x8ⅹ拨牐拨牐拨牐永久免费
动漫❌巨乳❌3d❌视频 1.71MB / 手机版下载 2023-11-04

查看详情

国产乱婬AV片在线观看伸舌头
妖X❌❌XXx 1.17MB / 手机版下载 2023-11-02

查看详情

火影忍者❌18禁同人游戏
女人双腿打开揉弄高潮❤ 60.21MB / 安装包下载 2025-03-10

查看详情

91♥️丨PORN丨首页
小樱让鸣人吃大雷怎么办 585.4MB / 完整版下载 2023-11-01

查看详情

91❤口爆吞精合集国产
扒开雏田❌狂揉❌难受图片 1.86MB / 完整版下载 2023-10-30

查看详情

αss艳妇猛交BBw
原神涩涩同人❌18禁漫画 654.28MB / 手机版下载 2024-05-31

查看详情

美女裸身❌❌被吊起来
欧美男男18🈲🌿出水 1.16MB / 安装包下载 2023-10-27

查看详情

成人黄漫❌免费入口
HD❌❌❌sexHD 563.23MB / app下载 2023-10-27

查看详情

别急让你日个够
美杜莎3D同人18❌羞羞漫画 2.22MB / 手机版下载 2023-10-26

查看详情

女生裸装🔞按摩挤奶
欧美⭕⭕⭕⭕XXXX纪录片 2.28MB / 安装包下载 2023-10-26

查看详情

光头哥后入星野在哪里看
日本公众欲情动漫名器 963.15MB / 安装包下载 2023-10-25

查看详情

免费➕无码➕黄漫
植物大战僵尸融合版 171.19MB / 手机版下载 2024-03-29

查看详情

美女被c❌❌网站
性少妇mdms丰满hdf… 81.24MB / PC端下载 2023-09-28

查看详情

XNXXX美国👙👙16
丫头把腿开大让我添添 2.73MB / 官方版下载 2023-09-19

查看详情

女生鸡鸡图片
水咲萝拉AV无码播放视频 1.9MB / 2025官方最新版本下载 2023-09-18

查看详情

成人㊙️免费网下载动漫小说
好爽⋯好紧⋯再深一点潮 1.79MB / 电脑版下载「含模拟器」 2023-09-15

查看详情

把女人弄爽特黄a大片APP
小心🐤入🍑🍑视频欧美 860.17MB / PC端下载 2023-08-24

查看详情

绿帽社在线入口www免费下载
俄罗斯肥婆大BBBBBB图片 2.31MB / 电脑版下载「含模拟器」 2023-08-21

查看详情

触手～动漫～乳孔～大胸
动作男♂yaoi自慰Gay漫画 826.14MB / PC端下载 2023-08-10

查看详情

男男Gay野外做爰XXXⅩ
欧美猛男GayGay✅beat 1.80MB / 电视版下载 2023-08-08

查看详情

美女裸体㊙️无遮挡3D
雏田被❌吸乳羞羞网站 2.53MB / 官方版下载 2023-08-04

查看详情

伽罗被❌娇喘流白色液体原因
大胸阿离裸体爆乳赤身 2.51MB / 官方版下载 2024-11-08

查看详情

被迫在刑具上高潮调教道具
工藤新一啪啪小兰h 743.25MB / 最新版下载 2023-07-31

查看详情

扒掉乳罩㊙️虐胸打胸吸奶动漫
我家弟很棒樱花动漫版 905.23MB / 中文版下载 2023-07-20

查看详情

女学生脱精光裸体小视频
野原琳婬肉泬被c 27.7MB / 完整版下载 2023-07-20

查看详情

真人美女被吸入的小视频
女初高中打屁股❤️视频 941.20MB / PC端下载 2023-07-10

查看详情

鸣人和小樱探讨人生
撕开奶罩边躁狠狠躁软学生电影 1.47MB / 下载官方版 2023-06-14

查看详情

XXXXX日本学生护士老师
黑土被鸣人❌❌黄 626.16MB / PC端下载 2023-06-06

查看详情

小🐤🐤戳进🍑无遮挡网站
意大利电影巜豪妇荡乳 2.39MB / 中文版下载 2023-06-01

查看详情

❌❌❌ZZZZZ高H视频
粗烫大塞满湿舔心 346.20MB / PC端下载 2023-06-05

查看详情

啊灬灬用力灬嗯灬3p男男
警犬妈妈番外怀孕 1.04G / v8.2.2 安卓版 2024-08-13

查看详情

老熟女成熟50ⅩXXX过劲自拍
街头钞能力无删减版1080P 491.4MB / 安装包下载 2023-05-19

查看详情

成人v精品㊙️蜜桃久久一区
性中国❌❌XXyⅩXXXxⅩ 458.15MB / PC端下载 2024-06-19

查看详情

钢钢钢钢钢钠钢好多水免费版
偷窥间谍tube　2120 2.43MB / PC端下载 2023-04-26

查看详情

扒开疯狂揉❌羞羞3
卡尔蜜拉的乳液狂飙手机搜狐网 1.39MB / 2025官方最新版本下载 2023-04-24

查看详情

嫩草嫩草V88AV
zzzwww免费看片免费软件 1.89MB / 完整版下载 2023-04-20

查看详情

校霸顶撞喘嗯啊H校园腐文视频
欧美性猛交XXXX免费看蚧贝 926.19MB / 安装包下载 2023-04-24

查看详情

动漫❌狂揉胸❌巨乳
纲手巨胸被爆乳 829.5MB / 手机版下载 2023-03-28

查看详情

18🈲🍆🍑无套直胡桃部下
91哮喘⭕⭕❌❌白丝 96.18MB / 电视版下载 2024-12-02

查看详情

农村老太HD肉HD
黑料爆料18🈲白浆 997.22MB / 官方版下载 2024-08-12

查看详情

大胸美女疯狂抖胸
白鹿被揉到高潮喷了一床小说 705.23MB / 2025官方最新版本下载 2023-03-14

查看详情

小心🐤戳进老师🍑里面真人
体育生浴室互吃根茎 567.29MB / app下载 2023-01-17

查看详情

无翼乌口工全彩本子库
男女啪啪久久爽A片免费看网站 2.56MB / 手机版下载 2024-04-03

查看详情

PornJAVHDOnline✅
国产精品无码日韩18🈲️ 750.25MB / 完整版下载 2023-02-13

查看详情

AI泳装裸体巨胸美女
国产又粗又猛又色又黃 2.43MB / 官方版下载 2023-03-03

查看详情

四川最大BBBBBBBBB
在线无码精品㊙️国产三年 1.15MB / 电视版下载 2023-08-29

查看详情

无码精品秘人口一区二区

苹果

相关合集

网友评论 查看所有评论>>

【网站地图】【sitemap】