èÑÛµçÓ°
¡¡¡¡Ã¨ÑÛµçÓ°¼ÇÕß 贺五妹 ±¨µÀP6F3X2M7T9QJ8L1B4WZR
ÐÂÖÇÔª±¨µÀ
±à¼£ºKingHZ ÌÒ×Ó
¡¾ÐÂÖÇÔªµ¼¶Á¡¿Ç¿»¯Ñ§Ï°¿ÉÒÔÌáÉýLLMÍÆÀíÂð£¿Ó¢Î°´ïProRLÓó¬2000²½ÑµÁ·Åä·½¸ø³öÁËÏìÁÁµÄ´ð°¸¡£½ö15ÒÚ²ÎÊýÄ£ÐÍ£¬æÇÃÀDeepseek-R1-7B£¬Êýѧ¡¢´úÂëµÈÈ«Ãæ·º»¯¡£
Ç¿»¯Ñ§Ï°ScalingÀ´ÁË£¡
¸Õ¸Õ£¬Ó¢Î°´ïÍŶÓÌá³öÈ«ÐÂѵÁ··½·¨¡ª¡ªProRL£¬³É¹¦½«RLÀ©Õ¹µ½2000²½¡£
ÂÛÎÄÁ´½Ó£ºhttps://arxiv.org/abs/2505.24864
²¢ÇÒ£¬Ëüͨ¹ý¿çÁìÓòѵÁ·Êý¾Ý£¬°üÀ¨Êýѧ¡¢´úÂë¡¢STEM¡¢ÃÕÌâ¡¢Ö¸Áî×ñÑ£¬ÊµÏÖÁË·º»¯ÄÜÁ¦¡£
»ùÓÚ´Ë·½·¨£¬Ñо¿ÍŶÓѵ³öµÄ1.5BÄ£ÐÍ£¬ÐÔÄÜÖ±½ÓæÇÃÀDeepseek-R1-7B£¡
Õâ֤ʵÁË£¬Í¨¹ý³¤Ê±¼äѵÁ·£¬RLȷʵÄܽâËøÈ«ÐÂÍÆÀíÄÜÁ¦¡£
Õâ¾ÍÊÇÇ¿»¯Ñ§Ï°µÄScaling Law£ºÇ¿»¯Ñ§Ï°ÑµÁ·Ô½³¤£¬LLMÍÆÀíÄÜÁ¦Ô½Ç¿¡£
»ÆÈÊÑ«ºÜ¸ßÐË£¬±Ï¾¹ÔÚÄê³õËû¾ÍÌá³öÁËËùνµÄ¡¸Èý´óAI Scaling Law¡¹¡£
ԤѵÁ·Scaling LawÂíÉÏ´¥¶¥£¬ºóѵÁ·Scaling LawÕýÔÚ·¢Á¦¡£
¶øÇ¿»¯Ñ§Ï°ScalingÐèÒª¸ü¶àµÄËãÁ¦£¬¶ÔӢΰ´ï¶øÑÔ¾ÍÊÇÉÌ»úºÍÀûÈó¡£
ºóѵÁ·ÍØÕ¹£¨Post-training scaling£©ÀûÓÃ΢µ÷£¨fine-tuning£©¡¢¼ôÖ¦£¨pruning£©¡¢ÕôÁó£¨distillation£©ºÍÇ¿»¯Ñ§Ï°µÈ¼¼Êõ£¬ÓÅ»¯Ô¤ÑµÁ·Ä£ÐÍ£¬´Ó¶øÌáÉýÄ£Ð͵ÄЧÂʺÍÈÎÎñÊÊÓ¦ÐÔ¡£
Õâ´ÎÑо¿µÄÖ÷Òª·¢ÏÖ£º
ÐÔÄÜÏÔÖøÌáÉý£ºÔÚÊýѧ¡¢±à³Ì¡¢Âß¼ÃÕÌâ¡¢STEMÍÆÀíºÍÖ¸Áî¸úËæµÈÈÎÎñÖУ¬ProRLѵÁ·µÄÄ£ÐÍÔÚpass@1Ö¸±êÉÏ·Ö±ðÌáÉýÁË14.7%¡¢13.9%¡¢54.8%¡¢25.1%ºÍ18.1%¡£
·¢ÏÖÐÂÓ±½â·¨£ºProRLѵÁ·µÄÄ£ÐÍÔÚijЩÈÎÎñÖбíÏÖ³öǰËùδÓеÄÍÆÀí·¾¶£¬ÉõÖÁÔÚ»ù׼ģÐÍÍêȫʧ°ÜµÄÇé¿öÏÂÒ²Äܳɹ¦½â¾öÎÊÌ⣬ÏÔʾ³öÆä̽Ë÷нⷨµÄÄÜÁ¦¡£
³ÖÐøÑµÁ·´øÀ´³ÖÐøÊÕÒæ£º¼´Ê¹¾¹ý2000¶à²½µÄѵÁ·£¬Ä£ÐÍÐÔÄÜÈÔÔÚÌáÉý£¬±íÃ÷³¤Ê±¼äµÄRLѵÁ·¿ÉÒÔ²»¶ÏÀ©Õ¹Ä£Ð͵ÄÍÆÀí±ß½ç¡£
Ç¿»¯Ñ§Ï°Scaling
Ö»Òª2000²½
½üÀ´£¬Ðí¶àÈËÖÊÒÉRLÊÇ·ñÕæÕýÌáÉýÄ£Ð͵ÄÍÆÀíÄÜÁ¦¡£ÉõÖÁ£¬ÓÐÑо¿Éù³ÆRLÎÞ·¨Îª»ù´¡Ä£ÐÍ´øÀ´ÐµÄÍÆÀí¼¼ÄÜ¡£
ÕâЩ¹ÛµãÈÏΪ£¬RLµÄЧ¹ûÊÜÏÞ£¬Ö÷ÒªÔ´×ÔÒÔÏÂÎÊÌ⣺
1. ѵÁ·ÁìÓò¹ýÓÚÏÁÕ£º±ÈÈç¹ý¶È¾Û½¹ÓÚÊýѧµÈÌØ¶¨ÁìÓò£¬µ¼ÖÂÄ£ÐÍÄÑÒÔ·º»¯¡£
2. ѵÁ·Ê±¼ä²»×㣺Ðí¶àÇ¿»¯Ñ§Ï°ÑµÁ·½öÔÚÊý°Ù²½ºó¾ÍÍ£Ö¹£¬Ô¶Î´ÍÚ¾ò³öÕæÕýµÄDZÁ¦¡£
ÕâЩÏÞÖÆ£¬ÈÃÈËÃÇÎóÒÔΪRLÎÞ·¨Í»ÆÆ»ù´¡Ä£Ð͵ÄÍÆÀí±ß½ç¡£µ«ÊÂʵ֤Ã÷£¬²¢·ÇÈç´Ë¡£
Ӣΰ´ïÕâÏîÍ»ÆÆÐÔÑо¿£¬´øÀ´ÁËÕñ·ÜÈËÐĵĴ𰸣º
Ö»Òª½«RLѵÁ·×ã¹»¾Ã£¬AIÍÆÀíÄÜÁ¦¾ÍÄÜʵÏÖÖʵķÉÔ¾£¡
ProRL±ã³ÉΪÁËÍ»ÆÆ2000²½µÄÇ¿»¯Ñ§Ï°ÐÂÅä·½£¬Í¨¹ýKL³Í·£ºÍ¶¨ÆÚ²Î¿¼²ßÂÔÖØÖ㬽â¾öÁ˳¤ÆÚÒÔÀ´´æÔÚµÄÁ½´óÄÑÌ⡪¡ªìرÀÀ£ºÍѵÁ·²»Îȶ¨ÐÔ¡£
ÂÛÎÄÖÐÀûÓÃProRL£¬×÷Õß´òÔìÁ˽ö15ÒÚ²ÎÊýÍÆÀíÄ£ÐÍ¡ª¡ªNemotron-Research-Reasoning-Qwen-1.5B¡£
ProRLµÄºËÐÄÍ»ÆÆÔÚÓÚ£¬ËüÈÃÄ£ÐÍÄܹ»ÔÚÐÂÓ±ÈÎÎñÖУ¬·¢ÏÖ»ù´¡Ä£ÐÍÍêÈ«ÎÞ·¨Æó¼°µÄ½â¾ö·½°¸¡£
½á¹ûÏÔʾ£¬ÔÚÊýѧ¡¢´úÂë¡¢STEM¡¢ÃÕÌâºÍÖ¸Áî×ñÑ·½Ã棬1.5BÄ£ÐÍʵÏÖÁ˳¬Ç¿·º»¯ÄÜÁ¦£¬ÍêÈ«²»ÊäDeepseek-R1-7B¡£
ÁíÍ⣬ÔÚÐí¶à²âÊÔÖУ¬»ù´¡Ä£Ðͼ´Ê¹¾¹ý´óÁ¿²ÉÑùÒ²Íêȫʧ°Ü£¬¶øProRLѵÁ·µÄÄ£ÐÍÈ´ÄÜʵÏÖ100%ͨ¹ýÂÊ¡£
ÓÈÆäÊÇ£¬ÔÚ¸ßÄѶÈÈÎÎñºÍÓòÍâÈÎÎñÉÏ£¬ProRLѵÁ·µÄÄ£ÐͱíÏÖ³öÉ«¡£Õâ±íÃ÷ÁËÍÆÀíÄÜÁ¦ÕæÕýScaling£¬²¢ÄÚ»¯Á˳¬Ô½ÑµÁ·Êý¾ÝµÄ³éÏóÍÆÀíģʽ¡£
ÒÔCodeforceÈÎÎñΪÀý£¬RLºóÄ£Ð͵Ľⷨ·¢²¼¸ü¼Ó¹ã·º£¬Õ¹ÏÖ³ö¸ü¸ßµÄ¶àÑùÐÔ¡£
¶ø¶ÔÓÚȫеÄfamily_relationshipsÈÎÎñ£¬Ä£ÐÍ´Ó¼¸ºõÈ«0ͨ¹ýÂÊ£¬Ô¾ÉýÖÁÍêÃÀ׼ȷÂÊ£¬³É¹¦·¢ÏÖÁËȫеĽⷨ·¾¶¡£
½ÓÏÂÀ´£¬Ò»Æð¿´¿´ProRL·½·¨ÈçºÎʵÏֵģ¿ÎªºÎ2000²½ÄÜ´øÀ´Èç´ËÏÔÖø±ä»¯£¿
¹Ø¼üÔÚÓÚ²ßÂÔÓÅ»¯µÄµ×²ã»úÖÆ£ºGRPOÓëKLÕýÔòµÄÐͬ½ø»¯£¬ÎªÇ¿»¯Ñ§Ï°×¢ÈëÁËÎȶ¨Óë¶àÑùÐÔ¡£
¸ÄÔìGRPO
¡¸Èý°å¸«¡¹½â¾öìØÌ®Ëõ
ÔÚ²ßÂÔÓÅ»¯ÑµÁ·Ê±¼ä½Ï³¤Ê±£¬Ö÷ÒªÄÑÌâÊÇìØÌ®Ëõ¡£
ìØÌ®ËõÖ¸µÄÊÇÄ£ÐÍÊä³öµÄ¸ÅÂÊ·Ö²¼ÔÚѵÁ·ÔçÆÚ¾Í±äµÃ·Ç³£¼¯ÖУ¬µ¼ÖÂÊä³öìØÑ¸ËÙϽµ¡£
µ±ìØÌ®Ëõ·¢Éúʱ£¬²ßÂÔ»á¹ýÔçµØ¹Ì¶¨ÔÚÉÙÁ¿Êä³öÉÏ£¬ÑÏÖØÏÞÖÆÁË̽Ë÷ÐÔ¡£
¶ÔÓÚGRPO£¨Group Relative Policy Optimization£¬×éÏà¶Ô²ßÂÔÓÅ»¯£©ÕâÑùµÄRLËã·¨À´Ëµ£¬¶àÑù»¯µÄÊä³öÑù±¾ÊǹÀËãÏà¶ÔÓÅÊÆµÄ»ù´¡£¬Òò´Ë̽Ë÷ÊÜÏÞ»áʹѧϰÐÅºÅÆ«²î£¬ÑµÁ·ÄÑÒÔ¼ÌÐøÓÐÐ§ÍÆ½ø¡£
Ìá¸ß²ÉÑùµÄζȣ¬ËäÈ»¿ÉÒÔÑÓ»ºìØÌ®ËõµÄ·¢Éú£¬µ«Ëæ×ÅѵÁ·µÄ½øÐУ¬ìØÈÔ»á³ÖÐøÏ½µ¡£
Õâ´Î£¬Ñо¿ÍŶӳ¹µ×¸ÄÔìÁËGRPO·½·¨¡£
GRPOµÄÓÅ»¯Ä¿±êÈçÏ£º
¦ÓÊǵ±Ç°²ßÂԦЦÈËù²ÉÑùµÄÏìÓ¦£¬r¦È(¦Ó)±íʾµ±Ç°²ßÂÔÓë¾É²ßÂԵĸÅÂʱȡ£
GRPOÖеÄÓÅÊÆº¯Êý£¨advantage£©²»ÒÀÀµÓÚPPOµÄ¼ÛÖµÍøÂ磨critic£©£¬¶øÊÇÓÃͬһ×éÑù±¾{Ri}µÄµÃ·ÖÀ´¹ÀËã»ùÏߣº
DAPOµÄÆô·¢
¿ªÔ´µÄDAPOËã·¨Öеö¹Ø¼ü×é¼þ£¬Æô·¢ÁËÑо¿ÍŶӽâ¾öìØÌ®ËõÎÊÌâ¡£
ÂÛÎÄÁ´½Ó£ºhttps://arxiv.org/abs/2503.14476
Ê×ÏÈ£¬DAPOÒýÈëÁË¡¸½âñî¼ô¼¡¹»úÖÆ£¬ÔÚPPOµÄÄ¿±êº¯ÊýÖн«ÉÏϼô¼±ß½çÊÓΪÁ½¸ö¶ÀÁ¢µÄ³¬²ÎÊý£º
ͨ¹ý½«?_highÉèÖÃΪ½Ï¸ßÖµ£¬Ëã·¨¹ÄÀø¡¸ÏòÉϼô¼¡¹£¨clip-higher£©£¬¼´ÌáÉýÔ±¾¸ÅÂʽϵ͵ÄtokenµÄÉú³É¸ÅÂÊ£¬´Ó¶øÀ©´óÄ£Ð͵Ä̽Ë÷·¶Î§¡£
ËûÃÇ·¢ÏÖ£¬ÕâÖÖµ÷ÕûÓÐÖúÓÚ±£³ÖÊä³öìØ£¬²¢¼õÉÙ¹ýÔçµÄģʽ̮ËõÏÖÏó¡£
´ËÍ⣬DAPO»¹²ÉÓÃÁË¡¸¶¯Ì¬²ÉÑù¡¹²ßÂÔ£¬¼´¹ýÂ˵ôÄÇЩģÐÍ×ÜÊdzɹ¦£¨×¼È·ÂÊΪ1£©»ò×ÜÊÇʧ°Ü£¨×¼È·ÂÊΪ0£©µÄÌáʾÓï¡£ÕâЩʾÀýÎÞ·¨ÌṩÓÐЧµÄѧϰÐźš£
Ïà·´£¬ÑµÁ·¸ü¼¯ÖÐÔÚ¡¸ÖеÈÄѶȡ¹µÄÑù±¾ÉÏ£¬ÓÐÖúÓÚ±£³Ö¶àÑù»¯µÄѧϰÐźţ¬Íƶ¯Ä£ÐͳÖÐø½ø²½¡£
ÏÔʽÕýÔò»¯£º¸üÇ¿¡¢¸üÎȶ¨
¾¡¹ÜDAPO»úÖÆºÍµ÷Õû²ÉÑùζȿÉÒÔÔÚÒ»¶¨³Ì¶ÈÉϼõ»ºìØÌ®Ëõ£¬µ«ÒýÈëÏÔʽÕýÔò»¯·½·¨KLÉ¢¶È³Í·£ÏÄܹ»Ìṩ¸üÇ¿¡¢¸üÎȶ¨µÄ½â¾ö·½°¸¡£
¾ßÌå¶øÑÔ£¬Ñо¿ÍŶÓÔÚµ±Ç°²ßÂԦЦȺͲο¼²ßÂÔ¦ÐrefÖ®¼ä¼ÓÈëKLÉ¢¶È³Í·££º
Õâ¸ö³Í·£Ïî²»½öÓÐÖúÓÚά³Ö²ßÂÔµÄìØ£¬»¹Æðµ½ÁËÕýÔò»¯µÄ×÷Ó㬷ÀÖ¹µ±Ç°²ßÂÔ¹ý¶ÈÆ«ÀëÒ»¸öÎȶ¨µÄ²Î¿¼²ßÂÔ£¬´Ó¶øÌáÉýѵÁ·Îȶ¨ÐÔ£¬±ÜÃâÄ£Ð͹ýÄâºÏÓÚijЩÐé¼ÙµÄ½±ÀøÐźš£
´ËÍâ£¬Ëæ×ÅѵÁ·Íƽø£¬KL³Í·£Ïî¿ÉÄÜÔÚËðʧº¯ÊýÖÐÕ¼±È¹ý¸ß£¬´Ó¶øÒÖÖÆ²ßÂÔ¸üеIJ½·ù¡£
ΪÁ˽â¾öÕâ¸öÎÊÌ⣬Ñо¿ÍŶÓÒýÈëÁËÒ»ÖÖ¼òµ¥µ«ÓÐЧµÄ·½·¨£º²Î¿¼²ßÂÔÖØÖã¨Reference Policy Reset£©¡£
¾ßÌå×ö·¨ÊÇ£º¶¨ÆÚ½«²Î¿¼²ßÂÔ¦ÐrefÓ²ÐÔÖØÖÃΪµ±Ç°²ßÂԦЦȵÄ×î½ü¿ìÕÕ£¬²¢ÖØÐ³õʼ»¯ÓÅ»¯Æ÷µÄ״̬¡£
ÕâÖÖ»úÖÆ¼ÈÄÜÈÃÄ£ÐͼÌÐø¸Ä½ø£¬ÓÖÄܱ£ÁôKLÕýÔò»¯´øÀ´µÄÎȶ¨ÐÔ¡£ÔÚÕû¸öѵÁ·¹ý³ÌÖз´¸´Ó¦ÓÃÕâÖÖÖØÖòßÂÔ£¬ÒÔ·ÀÄ£Ð͹ýÔçÊÕÁ²£¬Í¬Ê±¹ÄÀø¸ü³¤Ê±¼äµÄÓÐЧѵÁ·¡£
È«Ãæ·º»¯
1.5BË¢ÐÂSOTA
½èÖúÎȶ¨µÄ½±Àø¼ÆËã»úÖÆ¡¢¸Ä½ø°æGRPOËã·¨ÒÔ¼°ÑÓ³¤µÄѵÁ·¹ý³Ì£¬ÔÚ²»Í¬ÈÎÎñÉÏ£¬ÐÂÄ£ÐÍNemotron-Research-Reasoning-Qwen-1.5B¶¼Õ¹ÏÖ³öÇ¿´óµÄ·º»¯ÄÜÁ¦¡£
ÏîÄ¿Á´½Ó£ºhttps://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
ÔÚÒÔÏÂÁìÓò£¬ÐÂÄ£Ð;ùÏÔÖøÓÅÓÚ»ù´¡Ä£ÐÍDeepSeek-R1-Distill-Qwen-1.5B£º
Êýѧ£ºÌáÉý+15.7%
±à³Ì£ºÌáÉý+14.4%
STEMÍÆÀí£ºÌáÉý+25.9%
Ö¸Áî×ñÑ£ºÌáÉý+22.0%
ÎÄ×ÖÂß¼ÃÕÌ⣨Reasoning Gym£©£ºÌáÉý+54.8%
´ËÍ⣬ÔÚÊýѧ£¨+4.6%£©ºÍ±à³Ì£¨+6.5%£©Á½¸öÁìÓò£¬ÐÂÄ£ÐÍÒ²³¬Ô½ÁËרÃÅÕë¶ÔÌØ¶¨ÈÎÎñѵÁ·µÄÁìÓòרÓûùÏßÄ£ÐÍ£¬³ä·ÖÌåÏÖÁËͨÓÃÐÍÇ¿»¯Ñ§Ï°£¨Prolonged RL£©ÑµÁ··½·¨µÄÓÐЧÐÔ¡£
ʵÑéÉèÖÃ
ΪÁËÑéÖ¤¼ÙÉ裬Ñо¿ÍŶӹ¹½¨Á˶àÑù»¯ÇÒ¿ÉÑéÖ¤µÄѵÁ·Êý¾Ý¼¯£¬¹²°üº¬Ô¼13.6Íò¸öÑù±¾£¬º¸ÇÎå¸öÈÎÎñÁìÓò£ºÊýѧ£¨math£©¡¢±à³Ì£¨code£©¡¢Àí¹¤ÀࣨSTEM£©¡¢Âß¼ÃÕÌ⣨logical puzzles£©ºÍÖ¸Áî×ñÑ£¨instruction following£©¡£
ÿÖÖÈÎÎñÀàÐͶ¼ÅäÓÐÇåÎúµÄ½±ÀøÐźţ¨¿ÉΪ¶þÖµ»òÁ¬ÐøÖµ£©£¬´Ó¶øÔÚѵÁ·¹ý³ÌÖÐÌṩ¿É¿¿·´À¡¡£
±í4£ºÕâ´ÎÑо¿ÖÐʹÓõÄѵÁ·Êý¾Ý¸ÅÀÀ
ΪÁËʵÏÖÓÐЧµÄ³¤ÖÜÆÚÇ¿»¯Ñ§Ï°ÑµÁ·£¬ËûÃÇÔÚÈںϵÄÑéÖ¤¼¯£¨´ÓÆÀ¹À»ù×¼¼¯ÖгéÑù£©ÊµÊ±¼à¿ØÑµÁ·½øÕ¹¡£
µ±ÑéÖ¤¼¯±íÏÖÍ£ÖÍ»òϽµÊ±£¬ËûÃÇ»á¶Ô²Î¿¼Ä£ÐͺÍÓÅ»¯Æ÷½øÐÐÓ²ÐÔÖØÖã¬ÒÔ»Ö¸´ÑµÁ·Îȶ¨ÐÔ£¬²¢ÔÊÐí²ßÂÔ½øÒ»²½Æ«Àë³õʼ»ù´¡Ä£ÐÍ¡£
ÔÚѵÁ·µÄ´ó²¿·Öʱ¼äÀÏìÓ¦³¤¶È±»ÏÞÖÆÔÚ8000¸ötokenÄÚ£¬±£Ö¤Éú³É½á¹û¼ò½àÎȶ¨¡£
ÔÚѵÁ·µÄ×îºó½×¶Î£¨Ô¼200¸ö²½Ö裩£¬ÉÏÏÂÎÄ´°¿Útoken×ÜÊýÀ©´óµ½16000¡£
Ñо¿ÍŶӹ۲쵽ģÐÍÄܹ»Ñ¸ËÙÊÊÓ¦£¬²¢È¡µÃÁ˿ɹ۵ÄÐÔÄÜÌáÉý¡£
ͼ2չʾÁËÔÚ¶à½×¶ÎÀ©Õ¹Ç¿»¯Ñ§Ï°¹ý³ÌÖУ¬ÑµÁ·¶¯Ì¬µÄ¹Ø¼üͳ¼ÆÊý¾Ý¡£
DAPOµÄ¶àÏîÔöÇ¿²ßÂÔ£¬½áºÏKLÉ¢¶ÈËðʧ£¬ÓÐЧ·ÀÖ¹ÁËÄ£ÐͳöÏÖìØÌ®ËõÏÖÏó¡£
¾¡¹Ü¹Û²ìµ½Æ½¾ùÏìÓ¦³¤¶ÈÓëÑéÖ¤¼¯µÃ·ÖÖ®¼ä´æÔÚÒ»¶¨µÄÕýÏà¹Ø¹ØÏµ£¬µ«ÕâÒ»ÒòËØ²¢·Ç¾ö¶¨ÐÔ£¬ÒòΪÔÚijЩѵÁ·½×¶Î£¬¼´Ê¹ÏìÓ¦³¤¶ÈûÓÐÃ÷ÏÔÔö¼Ó£¬ÐÔÄÜÒÀÈ»ÓÐËùÌáÉý¡£
Óë´Ëͬʱ£¬ÑéÖ¤ÐÔÄÜ£¨Í¨¹ýpass@1ºÍpass@16Ö¸±êºâÁ¿£©³ÖÐø¸ÄÉÆ£¬²¢Ëæ×ÅѵÁ·¼ÆËãÁ¿µÄÔö¼Ó¶øÎȲ½ÌáÉý¡£
ÏÂͼ8չʾÁËÕû¸öѵÁ·¹ý³ÌÖÐKLÉ¢¶ÈµÄ±ä»¯Çé¿ö¡£
ʵÑéÀûÓÿªÔ´ÏîÄ¿reasoning-gym½øÐС£
ÏîÄ¿Á´½Ó£ºhttps://github.com/open-thought/reasoning-gym
ÆÀ²â½á¹û·ÖÎö
ÔÚ¶à¸öÁìÓò¶ÔDeepSeek-R1-Distill-Qwen-1.5B»ù´¡Ä£ÐÍÓëNemotron-Research-Reasoning-Qwen-1.5B£¬Ñо¿ÍŶӽøÐÐÁËÈ«Ãæ¶Ô±È¡£
ÐÂÄ£ÐÍÔÚËùÓÐÊýÑ§ÍÆÀí»ù×¼²âÊÔÖоùÎȶ¨³¬Ô½»ù´¡Ä£ÐÍ£¬Æ½¾ùÌáÉý15.7%£¨¼û±í1£©¡£
ÔÚ¸´ÔÓÊýÑ§ÍÆµ¼ÈÎÎñÖÐÕ¹ÏÖ³ö¸üÇ¿µÄÂß¼Á¬¹áÐÔ¡£
ÔÚ¾º¼¼±à³ÌÈÎÎñ£¨pass@1׼ȷÂÊ£©ÖÐÌáÉý14.4%£¬ÓÈÆäÉó¤´¦ÀíËã·¨ÓÅ»¯Óë±ß½çÌõ¼þÅжϣ¨¼û±í2£©¡£
ÔÚSTEMÍÆÀíÓëÖ¸Áî¸úËæ²âÊÔÖУ¬GPQA Diamond»ù×¼³É¼¨ÌáÉý25.9%£»IFEvalÖ¸ÁîÀí½âÈÎÎñÌáÉý22.0%(¼û±í3×ó²à)¡£
ÔÚÂß¼ÃÕÌ⣨Reasoning Gym£©²âÊÔÖУ¬ÔÚ»ù´¡Ä£ÐÍÆÕ±éÊÜÀ§ÓÚ¸ñʽ½âÎöÓ븴ÔÓ×ÓÈÎÎñµÄ³¡¾°Ï£¬½±Àø·ÖÊýÌáÉý54.8%¡£
ÐÂÄ£ÐÍÕ¹ÏÖ³öÓÅÒìµÄ·Ç½á¹¹»¯ÎÊÌâ·Ö½âÄÜÁ¦(¼û±í3×ó²à)¡£
¼´±ãÓë²ÎÊýÁ¿¸ü´óµÄDeepSeek-R1-Distill-Qwen-7BÏà±È£¬1.5BÐÂÄ£ÐÍÔÚ¶àÊýÁìÓò±íÏÖÏ൱ÉõÖÁ¸üÓÅ£¬ÑéÖ¤ÁËProRL·½·¨µÄ¸ßЧÐÔ¡£
¹Ø¼ü·¢ÏÖ£ºÇ¿»¯Ñ§Ï°ÑµÁ·²»½öÈ«ÃæÌáÉýÄ£ÐÍÔÚ¸÷רҵÁìÓòµÄ±íÏÖ£¬¸üÔÚ»ù´¡Ä£ÐÍÔ±¾Ê§Ð§µÄÈÎÎñÉÏʵÏÖÍ»ÆÆÐÔ½øÕ¹£¬Ö¤ÊµÁ˸÷½·¨¶ÔÄ£Ðͱ¾ÖÊÍÆÀíÄÜÁ¦µÄÍØÕ¹×÷Óá£
·Ö²¼ÍâÈÎÎñ£¨OOD£©·º»¯ÄÜÁ¦
±í3£¨ÓҲࣩչʾÁËÐÂÄ£ÐÍÔÚReasoning GymÖжà¸ö·Ö²¼Í⣨OOD£©ÈÎÎñÉϵıíÏÖ¡£
Ä£ÐÍÔÚÈýÏîOODÈÎÎñÖоùÈ¡µÃÏÔÖøÌáÉý£¬Õ¹ÏÖ³öÇ¿´óµÄ·º»¯ÄÜÁ¦¡£Õâ±íÃ÷еÄѵÁ··½·¨ÓÐÖúÓÚÄ£ÐÍÓ¦¶Ôδ֪ÌôÕ½¡£
ÓëÁìÓòרÓÃÄ£Ð͵ĶԱÈ
Ñо¿ÍŶӶԱÈÁËNemotron-Research-Reasoning-Qwen-1.5BÓëÁ½¸öרÃÅÃæÏòijһÁìÓòµÄ»ù׼ģÐÍ£ºDeepScaleR-1.5B£¨ÊýÑ§ÍÆÀí£©¡¢DeepCoder-1.5B£¨±à³ÌÈÎÎñ£©¡£
ϱí2ÏÔʾ£¬»ùÓÚProRLѵÁ·µÄÄ£Ð;߱¸Ç¿·º»¯ÄÜÁ¦£¬ÔÚ£º
ÊýѧÈÎÎñÖÐÌáÉý+4.6%
±à³ÌÈÎÎñÖÐÌáÉý+6.5%
´ËÍ⣬ProRLʹģÐÍÄÜÔڽ϶ÌÏìÓ¦³¤¶ÈÄÚÍê³É¸üÉîÈëµÄÍÆÀíÓëÓÅ»¯£¬Ïà±È֮ϣ¬ÏÖÓз½·¨ÍùÍù¹ýÔçÔö¼ÓÏìÓ¦³¤¶È£¬µ¼Ö¡¸¹ý¶È˼¿¼¡¹£¨overthinking£©²¢Éú³ÉÈß³¤†ªàµÄÍÆÀíÄÚÈÝ¡£
ʵÑé·ÖÎö
Õâ´ÎµÄÖ÷Òª·ÖÎö½áÂÛÈçÏ£º
£¨1£©Ç¿»¯Ñ§Ï°ÔÚÀ©Õ¹Ä£ÐÍÍÆÀí±ß½ç£¨ÒÔpass@128ºâÁ¿£©·½ÃæµÄЧ¹û£¬Óë »ù´¡Ä£Ð͵ijõʼÄÜÁ¦ ÃÜÇÐÏà¹Ø¡£
£¨2£©Ç¿»¯Ñ§Ï°È·ÊµÄܹ»ÏÔÖøÀ©Õ¹Ä£Ð͵ÄÍÆÀíÄÜÁ¦£¬ÓÈÆäÊÇÔÚÄÇЩ³¬³ö»ù´¡Ä£ÐÍÔÓÐÄÜÁ¦·¶Î§µÄ¸ßÄѶÈÈÎÎñÉÏ¡£
£¨3£©Ç¿»¯Ñ§È·Êµ¿ÉÒÔÀ©Õ¹LLMÍÆÀí±ß½ç£¬Äܹ»Íƹ㵽ѵÁ·ÖÐδ¼ûµÄ·Ö²¼ÍâÈÎÎñ¡£
£¨4£©Ð·½·¨ProRL²»½öÌá¸ßÁËÆ½¾ùpass@1£¬»¹×ãÒÔÃÖ²¹ÑµÁ·ÖпÉÄÜ´øÀ´µÄÊä³ö·½²îÔö¼Ó£¬´Ó¶øÕûÌåÌáÉýpass@kÉÏÏÞ£¬Íƶ¯ÍÆÀíÄÜÁ¦µÄʵÖÊÔ¾Éý¡£
ÆðµãÔ½Èõ£¬ÊÕÒæÔ½´ó
Õâ´ÎÑо¿µÄÒ»¸ö¹Ø¼ü·¢ÏÖÊÇ£ºÇ¿»¯Ñ§Ï°ÔÚÀ©Õ¹Ä£ÐÍÍÆÀí±ß½ç£¨ÒÔpass@128ºâÁ¿£©·½ÃæµÄЧ¹û£¬Óë»ù´¡Ä£Ð͵ijõʼÄÜÁ¦ÃÜÇÐÏà¹Ø¡£
Èçͼ3Ëùʾ£¬Ñо¿ÍŶӹ۲쵽»ù´¡Ä£Ð͵ÄÍÆÀí±ß½çÔ½Èõ£¬ÆäÔÚ¾¹ýRLѵÁ·ºóµÄÍÆÀíÌáÉýÔ½ÏÔÖø£¬¶þÕß³ÊÏÖ³öÃ÷ÏԵĸºÏà¹Ø¹ØÏµ¡£
¾ßÌåÀ´Ëµ£º
¶ÔÓÚ»ù´¡Ä£ÐÍÔ±¾±íÏֽϺõÄÈÎÎñ£¨¼´³õʼpass@128½Ï¸ß£©£¬RLѵÁ·ºóµÄÍÆÀí¹ã¶ÈÌáÉýÓÐÏÞ£¬ÉõÖÁ¿ÉÄܳöÏÖ¸ºÔö³¤¡£Õâ±íÃ÷Ä£Ð͸üÇãÏòÓÚÔÚÒÑÕÆÎյĽⷨÖÐÔöÇ¿ÐÅÐÄ£¬¶ø·Ç̽Ë÷еÄÍÆÀí·¾¶£¬µ¼ÖÂÍÆÀí±ß½ç±äµÃ¸ü¡¸Õ¡¹¡£
Ïà·´£¬ÔÚ»ù´¡Ä£Ðͱ¾Éí½ÏÈõ¡¢³õʼpass@128½ÏµÍµÄÁìÓòÖУ¬ProRLµÄЧ¹û×îΪÏÔÖø¡£´Ëʱ£¬RL²»½öÌá¸ßÁËpass@1׼ȷÂÊ£¬»¹ÏÔÖøÔöÇ¿ÁËÄ£ÐÍÔÚ¸ü¹ã·ºÍÆÀí·¾¶ÉϵÄ̽Ë÷ºÍ³É¹¦ÄÜÁ¦¡£
Ϊ½øÒ»²½ÑéÖ¤ÕâÖÖÏÖÏó£¬ËûÃÇÒýÈëÁË¡¸´´ÔìÁ¦Ö¸Êý¡¹£¨creativity index£©£¬ºâÁ¿»ù´¡Ä£ÐÍÔÚÿ¸öÈÎÎñÖеÄÏìÓ¦Óë×î´ó¹æÄ£¿ªÔ´Ô¤ÑµÁ·ÓïÁÏ¿âDOLMAÖ®¼äµÄÖØºÏ¶È¡£
½á¹û±íÃ÷£¬ÄÇЩÔÚRLѵÁ·ºó¼¸ºõûÓÐÌáÉýµÄÈÎÎñ£¬Æä´´ÔìÁ¦Ö¸ÊýÆÕ±é½ÏµÍ¡ª¡ª
ÓÈÆäÊÇһЩÊýѧºÍ±à³ÌÈÎÎñ£¨Í¼ÖÐÓÃԲȦ±ê³ö£©¡£
Õâ±íÃ÷»ù´¡Ä£ÐÍÔÚԤѵÁ·ÆÚ¼äÒѾ½Ó´¥¹ý´óÁ¿ÏàËÆÄÚÈÝ£¬Òò¶ø¶ÔÕâЩÈÎÎñ¡¸ÊìϤ¡¹£¬Ò²¸üÄÑͨ¹ýRL»ñµÃ½øÒ»²½ÌáÉý¡£
ͼ3£º×ó£ºÔÚ»ù´¡Ä£ÐÍ×î³õÄÑÒÔÓ¦¶ÔµÄÈÎÎñÉÏ£¬ProRL×îÄÜÓÐЧµØÀ©Õ¹Ä£Ð͵ÄÍÆÀí±ß½ç¡£ÓÒ£ºÔ²È¦Öбê³öµÄÄÇЩ¾¹ýÇ¿»¯Ñ§Ï°£¨RL£©ºóÊÕÒæ×îСµÄÈÎÎñͨ³£¾ßÓнϵ͵Ĵ´ÔìÁ¦Ö¸Êý
½â¹¹ProRLµÄÍÆÀí±ß½ç
ËûÃÇÖðÒ»·ÖÎöÁ˸÷¸öÆÀ¹À»ù×¼ÈÎÎñµÄѵÁ·±íÏÖ£¬²¢¸ù¾ÝѵÁ·¹ý³ÌÖÐpass@kµÄ±ä»¯Ç÷ÊÆ£¬°ÑËüÃÇ·ÖÀà¡£
½á¹û±íÃ÷£¬Ç¿»¯Ñ§Ï°È·ÊµÄܹ»ÏÔÖøÀ©Õ¹Ä£Ð͵ÄÍÆÀíÄÜÁ¦£¬ÓÈÆäÊÇÔÚÄÇЩ³¬³ö»ù´¡Ä£ÐÍÔÓÐÄÜÁ¦·¶Î§µÄ¸ßÄѶÈÈÎÎñÉÏ¡£
¾ßÌåÀ´Ëµ£º
һЩÈÎÎñÔÚѵÁ·³õÆÚ¾Í³öÏÖÁËÐÔÄܱ¥ºÍÉõÖÁÍÆÀíÄÜÁ¦ÍË»¯µÄÏÖÏó£»
µ«Ò²Óв»ÉÙÈÎÎñÕ¹ÏÖ³öËæ×ÅѵÁ·³ÖÐø¶ø²»¶ÏÌáÉýµÄÇ÷ÊÆ£¬ËµÃ÷ProRLÄܰïÖúÄ£ÐͲ»¶Ï̽Ë÷²¢ÕÆÎÕ¸ü¸´ÔÓµÄÍÆÀí²ßÂÔ¡£
×îÏÔÖøµÄÀý×ÓÊÇ´úÂëÉú³ÉÈÎÎñ£¬ÔÚÕâÒ»ÁìÓò£¬ProRLÄܹ»´øÀ´³ÖÐøÐÔµÄÐÔÄÜÌáÉý¡£Õâ±íÃ÷£¬ÑÓ³¤ÑµÁ·Ê±¼äʹģÐÍÓлú»áÉîÈë̽Ë÷£¬²¢Öð²½ÄÚ»¯¸ü¸´ÔÓµÄÍÆÀíģʽ¡£
ÕûÌåÀ´¿´£¬ÕâЩ½á¹û˵Ã÷£ºÔÚºÏÊʵÄѵÁ·Ìõ¼þÏ£¬ProRL²»½öÄÜÓÅ»¯Ä£Ð͵±Ç°µÄ±íÏÖ£¬»¹ÄÜÍ»ÆÆ»ù´¡Ä£Ð͵ÄÍÆÀíÉÏÏÞ£¬Íƶ¯Ä£ÐÍÔÚÍÆÀíÄÜÁ¦ÉϵijÖÐø½ø²½¡£
ÔÚÆÀ¹À¹ý³ÌÖз¢ÏÖ£¬ProRL¶Ô²»Í¬ÈÎÎñµÄÍÆÀí±ß½çÓ°Ïì´æÔÚÏÔÖø²îÒ죬Ö÷Òª¿É·ÖΪÒÔÏÂÈýÀàÇé¿ö£º
1.ÍÆÀí±ß½çÍË»¯£¨Diminished Reasoning Boundary£©
ÔÚ²¿·ÖÈÎÎñÖУ¨ÓÈÆäÊÇÊýѧÁìÓò£©£¬Nemotron-Research-Reasoning-Qwen-1.5BµÄÍÆÀíÄÜÁ¦Ïà±È»ù´¡Ä£ÐÍÓÐËùϽµ»ò±£³Ö²»±ä£¬ÕâÒ»ÏÖÏóÒ²ÓëÏÈǰÑо¿ÖеĹ۲ì½á¹ûÒ»Ö¡£
2.RLÊÕÒæÔçÆÚ±¥ºÍ£¨Gains Plateau with RL£©
¶ÔÓÚÕâÒ»ÀàÈÎÎñ£¬RLѵÁ·È·ÊµÌáÉýÁËpass@1ºÍpass@128£¬ËµÃ÷ÍÆÀíÄÜÁ¦ÓÐËùÔöÇ¿¡£µ«ÕâÖÖÌáÉý´ó¶à³öÏÖÔÚѵÁ·³õÆÚ¡£
±È½ÏÖмäѵÁ·¼ì²éµãÓë×îÖÕÄ£ÐÍ¿ÉÒÔ¿´³ö£¬ProRLÔÚѵÁ·ºóÆÚ¼¸ºõ²»ÔÙ´øÀ´¶îÍâÊÕÒæ£¬±íÃ÷Ä£ÐͶÔÕâÀàÈÎÎñµÄѧϰDZÁ¦ÒѺܿì´ïµ½±¥ºÍ¡£
3.³ÖÐøÊÕÒæ£¨Sustained Gains from ProRL£©
ÓëÉÏÊöÇé¿öÏà·´£¬²¿·ÖÈÎÎñ¡ª¡ªÓÈÆäÊǸü¸´ÔÓµÄÈÎÎñ£¬Èç´úÂëÉú³É¡ª¡ªÔÚ¾¹ý³¤Ê±¼äProRLѵÁ·ºó£¬ÍÆÀíÄÜÁ¦³ÖÐøÌáÉý¡£
ÕâЩÈÎÎñͨ³£ÐèҪģÐÍÔÚѵÁ·¹ý³ÌÖжԶàÑù»¯ÎÊÌâ½øÐгä·Ö̽Ë÷£¬²ÅÄÜÓÐЧ·º»¯µ½²âÊÔ¼¯¡£ÔÚ´ËÀàÈÎÎñÉÏ£¬ProRLÏÔÖøÍØÕ¹ÁËÄ£Ð͵ÄÍÆÀí±ß½ç£¬Õ¹ÏÖ³öÑÓ³¤ÑµÁ·ÔÚ¸´ÔÓÈÎÎñÉϵľ޴óDZÁ¦¡£
ProRLÌáÉý·Ö²¼ÍâÍÆÀíÄÜÁ¦
ProRLÈçºÎÔöǿģÐÍÔÚ·Ö²¼Í⣨Out-of-Distribution, OOD£©ÈÎÎñÉϵķº»¯ÄÜÁ¦?
ÑÓ³¤Ç¿»¯Ñ§Ï°ÑµÁ·ÊÇ·ñÄܹ»ÏÔÖøÀ©Õ¹Ä£Ð͵ÄÍÆÀí±ß½ç£¬ÓÈÆäÊÇÔÚÃæ¶Ô½á¹¹ÉÏÐÂÓ±»òÓïÒåÉϾßÓÐÌôÕ½ÐÔ¡¢ÇÒÔÚ³õʼѵÁ·½×¶ÎÎ´Ôø½Ó´¥¹ýµÄÈÎÎñʱ?
Õâ´ÎÑо¿ÊÔͼµ¥¶ÀÆÀ¹À³¤ÆÚRL¸üеÄ×÷Ó㬹۲ìÆäÊÇ·ñÄÜ´ÙʹģÐÍѧϰµ½¸ü³éÏó¡¢Í¨ÓõÄÍÆÀí²ßÂÔ£¬´Ó¶øÔÚİÉúÈÎÎñÖÐÒ²ÄܱíÏÖ³öÉ«¡£ÕâÊÇÑéÖ¤ProRLÊÇ·ñ¾ß±¸¡¸³¬³ö¾Ñéѧϰ¡¹ÄÜÁ¦µÄÖØÒªÖ¸±ê¡£
·Ö²¼Í⣨OOD£©ÈÎÎñÆÀ¹À
ÔÚReasoning GymÖÐѡȡÁËboxnetÈÎÎñ½øÐÐÆÀ¹À£¬¸ÃÈÎÎñÔÚѵÁ·½×¶Î´Óδ³öÏÖ¹ý£¬ÓÃÓÚ²âÊÔÄ£ÐÍÔÚÍêȫİÉúÈÎÎñÉϵķº»¯ÄÜÁ¦¡£
Èçͼ5Ëùʾ£º
»ù´¡Ä£ÐÍÔÚ¸ÃÈÎÎñÉÏÍêÈ«ÎÞ·¨×÷´ð£¬±íÏÖ³öÃ÷ÏÔµÄÄÜÁ¦È±Ê§¡£
Ïà±È֮ϣ¬¾¹ýProRLѵÁ·µÄÄ£ÐÍÕ¹ÏÖ³öÃ÷ÏԵĽâÌâÄÜÁ¦£¬ËµÃ÷ÆäÍÆÀí±ß½çµÃµ½ÁËʵÖÊÐÔµÄÀ©Õ¹£¬Äܹ»Íƹ㵽ѵÁ·ÖÐδ¼ûµÄ·Ö²¼ÍâÈÎÎñ¡£
½øÒ»²½¶Ô±ÈÖÐÆÚRL¼ì²éµãºÍ×îÖÕÑÓ³¤ÑµÁ·ºóµÄÄ£ÐÍ£¬Ñо¿Õß·¢ÏÖËæ×ÅѵÁ·³ÖÐø£¬Ä£ÐÍÔÚboxnetÉϵıíÏÖÎȲ½ÔöÇ¿£¬ÇÒÔÚËùÓÐpass@kÖµÉϾùÓÐÌáÉý¡£
ÕâÒ»½á¹ûÇ¿ÓÐÁ¦µØÖ§³ÖÁËÒÔϽáÂÛ£ºProRL²»½öÌáÉýÄ£ÐÍÔÚÒÑÖªÈÎÎñÉϵıíÏÖ£¬¸ü´ÙʹģÐÍÄÚ»¯³éÏóµÄÍÆÀíģʽ£¬¾ß±¸³¬Ô½¾ßÌåѵÁ·Êý¾ÝÓëÈÎÎñ¸´ÔӶȵķº»¯ÄÜÁ¦¡£
ÄѶÈÌáÉýÏµķº»¯ÄÜÁ¦ÆÀ¹À
Ñо¿Õß½øÒ»²½ÔÚgraph_colorÈÎÎñÖÐÆÀ¹ÀÄ£ÐÍÔÚ²»Í¬ÈÎÎñÄѶÈϵıíÏÖ¡£
¾ßÌå×ö·¨ÊÇͨ¹ýÉú³É²»Í¬½ÚµãÊýµÄͼ½á¹¹ÎÊÌâÀ´µ÷½ÚÈÎÎñÄѶȣº
ѵÁ·Êý¾Ý½ö°üº¬10¸ö½ÚµãµÄͼ
²âÊÔÊý¾ÝÔòʹÓøü´ó¹æÄ£µÄͼ£¬ÒÔÆÀ¹ÀÄ£ÐÍÔÚ³¬³öѵÁ··Ö²¼·¶Î§Ïµķº»¯ÄÜÁ¦
ͼ6չʾÁ˲»Í¬Ä£ÐÍÔÚ¸÷¸öͼ¹æÄ£ÏµıíÏÖ£¨pass@1ΪʵÏߣ¬pass@128ΪÐéÏߣ©¡£½á¹ûÏÔʾ£º
Ëæ×Åͼ¹æÄ£Ôö´ó£¬ÈÎÎñ¸´ÔÓ¶ÈÖ¸Êý¼¶ÉÏÉý£¬¸÷Ä£ÐÍÐÔÄܾùÓÐÒ»¶¨Ï½µ£¬ÕâÊǺÏÀíÔ¤ÆÚ£»
µ«ÑÓ³¤ProRLѵÁ·µÄÄ£ÐÍÔÚËùÓÐͼ¹æÄ£ÉÏʼÖÕÏÔÖøÓÅÓÚ»ù´¡Ä£ÐÍÓëÖмä¼ì²éµãÄ£ÐÍ£¬ÎÞÂÛÊÇpass@1»¹ÊÇpass@128¡£
ÕâÒ»·¢ÏÖ±íÃ÷£º
ProRL²»½öÌáÉýÁËÄ£ÐÍÔÚѵÁ··Ö²¼ÄÚµÄ׼ȷÂÊ
¸üÔöÇ¿ÁËÄ£ÐͶԸü¸´ÔÓ¡¢Î´¼ûÈÎÎñµÄÎȽ¡ÐÔÓë·º»¯ÄÜÁ¦£¬¼´±ãÈÎÎñµÄ½á¹¹¸´ÔÓ¶È´ó´ó³¬³öÔʼѵÁ··¶Î§£¬Ä£ÐÍÒÀÈ»Äܱ£³Ö½ÏÇ¿±íÏÖ¡£
ѵÁ·¹ý³ÌÖÐpass@1·Ö²¼ÈçºÎÑÝ»¯£¿
ÒÑÓÐÑо¿±íÃ÷£º
Ìá¸ßƽ¾ùpass@1£¨ÆÚÍûÖµ£©¿ÉÒÔÌáÉýpass@kÉϽç
¶ø¸ü¸ßµÄ·½²îÔò»áÏ÷ÈõÕâ¸öÉÏÏÞ
ÓëÒÑÓÐÑо¿Öй۲쵽µÄ¡¸ÑµÁ·¹ý³ÌÖÐpass@kËæÊ±¼äϽµ¡¹µÄÏÖÏó²»Í¬£¬Õâ´ÎµÄʵÑé½á¹û£¨Í¼1£©ÏÔʾ£º
pass@1ºÍpass@16¾ùËæ×ÅѵÁ·³ÖÐø¶ø³ÖÐøÌáÉý;
ÕâÖÖÇ÷ÊÆÖØÏÖÁËOpenAI o1µÄRLѵÁ·Öб¨¸æµÄscaling law¡£
ProRL·½·¨ÔÚ¶à¸öÈÎÎñÉÏ´øÀ´ÁËÏÔÖøµÄÐÔÄÜÌáÉý¡£
ͼ7(a)ºÍͼ7(b)չʾÁËÔÚ´úÂëÈÎÎñºÍÂß¼ÃÕÌâÈÎÎñÖеÄpass@1·Ö²¼±ä»¯£º
ѵÁ·³õÆÚ£ºÄ£ÐÍÊä³öµÄpass@1·Ö²¼Ö÷Òª¼¯ÖÐÔÚÁ㸽½ü£¬ÇÒ³ÊÏÖ³¤Î²·Ö²¼
ѵÁ·ºóÆÚ£º·Ö²¼Ã÷ÏÔÕûÌåÓÒÒÆ£¬±íÃ÷Ä£ÐÍÔÚ¸ü¶àÑù±¾ÉϵÄÊ׸ö½â´ð³É¹¦ÂÊ´ó·ùÌáÉý
¾ßÌå°¸Àý£º
CodeforcesÌâÄ¿£ºÑµÁ·ºó·Ö²¼¸ü¿í£¬×¼È·Âʸ²¸ÇÃæÏÔÖøÀ©´ó
family_relationshipsÈÎÎñ£º×÷Ϊһ¸öÐÂÓ±µÄÍÆÀíÈÎÎñ£¬¸ÃÈÎÎñ×î³õ¼¸ºõÈ«²¿ÎªÁã׼ȷÂÊ£¬µ«ÑµÁ·ºó³öÏÖ¼¯ÖÐÓÚÂú·Ö£¨100%£©µÄÏÔÖø·åÖµ£¬±íÃ÷Ä£Ðͳɹ¦Ñ§»áÁ˽âÌâ˼·£¬Äܹ»ÔÚ´ó¶àÊýÌáʾÏÂÕýÈ·×÷´ð
ÕâЩÃ÷ÏԵķֲ¼±ä»¯ÓÉÑÓ³¤RLѵÁ·Çý¶¯£¬ËµÃ÷£º
ProRL²»½öÌá¸ßÁËÆ½¾ùpass@1£¬»¹×ãÒÔÃÖ²¹ÑµÁ·ÖпÉÄÜ´øÀ´µÄÊä³ö·½²îÔö¼Ó£¬´Ó¶øÕûÌåÌáÉýpass@kÉÏÏÞ£¬Íƶ¯ÍÆÀíÄÜÁ¦µÄʵÖÊÔ¾Éý¡£
×÷Õß¼ò½é
Mingjie Liu£¬ÏÖÈÎӢΰ´ïÑо¿¿ÆÑ§¼Ò£¬×¨×¢ÓÚµç×ÓÉè¼Æ×Ô¶¯»¯£¨EDA£©ÁìÓòµÄÇ°ÑØÑо¿¡£
ËûµÄÑо¿ÁìÓòÖ÷Òªº¸Ç£ºÈ˹¤ÖÇÄÜÓë»úÆ÷ѧϰ¡¢Ä£ÄâÓë»ìºÏÐźż¯³Éµç·¡£
ËûÓÚ2022Äê»ñµÃµÂ¿ËÈøË¹´óѧ°Â˹͡·ÖУUT-Austinµç×ÓÓë¼ÆËã»ú¹¤³Ì²©Ê¿Ñ§Î»¡£
ÔÚ2018Ä꣬Ëû»ñµÃÃÜЪ¸ù´óѧµç×ÓÓë¼ÆËã»ú¹¤³Ì˶ʿѧλ¡£
2012Äê-2016Ä꣬Ëû¾Í¶ÁÓÚ±±¾©´óѧ΢µç×Óרҵ¡£
²Î¿¼×ÊÁÏ£º
https://x.com/_AndrewZhao/status/1929376147957076447
??ʱÊÂ1£º刘涛帐篷叫的视频大全
??06ÔÂ23ÈÕ,大金砖合作引领全球南方大团结,
¡¡¡¡Ð¡²»µã¶Ô´åÈËûÓÐÒþÂ÷£¬ÔçÒѽ²³öÁËÉíÊÀ£¬ÁíһȺÈËßñÐ꣬¶¼ÎªËû¹Ä¾¢£¬Ï£ÍûѸËÙáÈÆðÓÚ´ó»ÄÖС£
,八重神子3D同人❌羞羞¡£??06ÔÂ23ÈÕ,“老外中医”迪亚拉:中医药在非洲知晓率不断提高,
¡¡¡¡2¡¢¿ÆÑ§Ê©Ñµ¡£
,美女脱精光被刑具挠脚心,少年骇客漫画18+,18.19性瑜伽sex.HD¡£??ʱÊÂ2£º国产乱婬AV麻豆精东视频小说
??06ÔÂ23ÈÕ,郑林栋:激活大湾区融通发展的“一湾春水”,
¡¡¡¡ÏÂÃæÇëÄîµ½Ãû×ÖµÄͬѧµ½Ì¨Ç°ÓÉÕŸ±Ð£³¤°ä·¢½±×´¡£ ¾ÅÄê¼¶¶þģǰʮÃû£ºËγ¤Æ½ »Æ¼ÎÇì ÁõÐñêÏ ÕÅÓîÐù ¹ù¿¡´ï ºúºìÓî Íõ·« ÍõÙ»éª ÕÅöÎ ËïºÆ ÁùÄ꼶ǰʮÃû£ºÂ·ÜøÓå ¡¢Î⺣»Ô¡¢¸ßÔÆÏè¡¢ÕŠ¢ÌÆ ºÆ¡¢ ¼ÖÓñÐÀ¡¢ÁõÃμѡ¢ÖÜÓîÍ®¡¢Íõè´è´¡¢ÂíÑåÁú ÆßÄ꼶ǰʮÃû£ºÑî³çÁÖ ÖÜä ºÂÑ×ìÏ ¶¡Äþ ÀîÑ©Öñ
,女明星裸乳被爆❌白浆的视,欧美成人无码H版爱丽丝,少妇全程穿着长靴做爰AV¡£??06ÔÂ23ÈÕ,瑙鲁与台湾断交,
¡¡¡¡¿Ôßê¿Ôß꣬ÁíÍâÁ½Ö»ÇàÁÛÓ¥´óÅô»¹ÓÐСÇàÒ²ÅÜÁ˹ýÀ´£¬ÓÃÍ·²äС²»µã£¬ÓÐÖǻ۵ÄÐ×ÇݱÈÈËÀà¸ü¿ÊÍûÁ¦Á¿£¬½ÌËüÃǹÇÎÄ£¬¿ÉÒÔÁîËüÃǼÓËٳɳ¤¡£
,少萝裸体🔞🔞🔞网站,日韩人妻精品无码一区二区三区,老妇性猛交ⅩXXX乱大交03¡£??ʱÊÂ3£º恰斯卡瑟瑟被c污文
??06ÔÂ23ÈÕ,山西力推新举措 促进高校毕业生等青年就业创业,
¡¡¡¡3¡¢ С°à¶î£¬±ãÓÚ¹ÜÀí£¬ÓÐÀûÓÚѧÉúˮƽµÄÌá¸ß¡£
,小狗bunny,日本工口里番无遮█彩色老师,末发育娇小性色XXXX妓女¡£??06ÔÂ23ÈÕ,“世界橙乡”江西赣州开行首列脐橙出口班列,
¡¡¡¡¡°µ½µ×ÊÇ˰¡£¬¾¹È»Õâô×Ô¸º£¬ÄѵÀÕæµÄÒªÔÙÏÖÒ»¸öÌì×ÝÉñ×ʵÄÈËÁËÂ𣿡±
,八重神子被吸乳羞羞动漫,少妇被c🔞黄❌在线网站蜜桃,小宝探花在线观看免费直播电视剧¡£??ʱÊÂ4£º🔞漫画网站
??06ÔÂ23ÈÕ,以防长:目标实现之前 以色列不会在黎巴嫩停火,
¡¡¡¡´Ëǰ´©É½¼×ÓùâÓê¹¥»÷ʱ£¬ÌåÉÏÎÞÁÛ£¬Ôø±»Ð¡²»µãץס»ú»á£¬ÓÃÉÁµç»÷¶Ï¼¸¸ù¹ÇÍ·£¬ÏÖÔÚ´Ë´¦ÔÙÔâÖØ´´¡£
,公开调教露出当众玩弄,阿蕾奇诺裸体被❌涩涩动漫,雷电将军爆乳18禁🔞网站¡£??06ÔÂ23ÈÕ,大同古城开城迎宾盛典 展现北魏盛世壮阔,
¡¡¡¡ÕâÒ»¿Ì£¬Ð¡²»µãÔÚËûÃÇÐÄÖеÈͬÓÚһͷ¶ñħÁË¡£
,❌❌爆乳❌❌扶她视频,318.49xxdd.cc,扶她18禁漫画同人¡£Ôð±à£º基耶利尼
ÉóºË£º许桂芹
Ôð±à£º韦良宝