½üÄêÀ´£¬Á´Ê½ÍÆÀíºÍÇ¿»¯Ñ§Ï°ÒѾ±»¹ã·ºÓ¦ÓÃÓÚ´óÓïÑÔÄ£ÐÍ£¬ÈôóÓïÑÔÄ£Ð͵ÄÍÆÀíÄÜÁ¦µÃµ½ÁËÏÔÖøÌáÉý¡£È»¶ø£¬ÔÚͼÏñÉú³ÉÄ£ÐÍÖУ¬ÕâÖֳɹ¦¾ÑéÉÐδµÃµ½³ä·Ö̽Ë÷¡£Í¼ÏñÉú³ÉÄ£ÐÍÍùÍùÖ±½ÓÒÀ¾Ý¸ø¶¨Îı¾Éú³ÉͼÏñ£¬È±·¦ÀàËÆÈËÀà´´×÷¹ý³ÌÖеÄÍÆÀí£¬µ¼ÖÂÉú³ÉµÄͼÏñÔÚÓïÒå×ñÑÉÏÈÔÓÐÒ»¶¨¾ÖÏÞ¡£
½üÆÚ£¬ÉϺ£¿Æ¼¼´óѧ¡¢Î¢ÈíÑÇÖÞÑо¿ÔººÍ¸´µ©´óѧÌá³öÁË ReasonGen-R1 ¿ò¼Ü£¬Ò»¸öÁ½½×¶ÎѵÁ·¿ò¼Ü£¬½«Á´Ê½ÍÆÀí¼à¶½Î¢µ÷£¨Supervised Fine-tuning£©ÓëÇ¿»¯Ñ§Ï°£¨Reinforcement Learning£©Ïà½áºÏ£¬ÒÔÌáÉý×ԻعéͼÏñÉú³ÉÄ£Ð͵ÄÍÆÀíºÍ´´×÷ÄÜÁ¦¡£ReasonGen-R1 ʹµÃ×ԻعéͼÏñÉú³ÉÄ£ÐÍ¿ÉÒԶ˵½¶ËµØÔÚÊä³öͼƬ֮ǰÏȽøÐÐÎı¾¡¸Ë¼¿¼¡¹£¬´ó·ùÌáÉýÁË»ù×ùÄ£Ð͵ÄÓïÒå×ñÑÄÜÁ¦£¬²¢ÔÚ¶à¸öÓïÒåÖ¸±êÉÏÈ¡µÃÍ»ÆÆ¡£
Ŀǰ£¬ReasonGen-R1 ÒÑÈ«Ãæ¿ªÔ´£¨°üÀ¨ÑµÁ·¡¢ÆÀ²â´úÂ룬ѵÁ·Êý¾ÝÒÔ¼°Ä£ÐÍ£©¡£
ÂÛÎıêÌ⣺ReasonGen-R1: CoT for Autoregressive Image Generation model through SFT and RLArxiv µØÖ·£ºhttps://arxiv.org/abs/2505.24875´úÂëµØÖ·£ºhttps://github.com/Franklin-Zhang0/ReasonGen-R1ÏîÄ¿Ö÷Ò³£ºhttps://reasongen-r1.github.io
·½·¨¸ÅÀÀ
ReasonGen-R1 µÄѵÁ·°üÀ¨Á½¸öºËÐĽ׶Σº¼à¶½Î¢µ÷½×¶Î£¨SFT£©ÒÔ¼°Ç¿»¯Ñ§Ï°½×¶Î£¨RL£©¡£
¼à¶½Î¢µ÷½×¶ÎÊ×Ïȹ¹½¨ÁËÒ»¸ö´ó¹æÄ£Í¼Æ¬Éú³ÉÍÆÀíÊý¾Ý¼¯£¬¹²°üº¬ 20 ÍòÌõͼÏñ-Îı¾¶Ô¡£¸ÃÊý¾Ý¼¯»ùÓÚ LAION ÃÀѧ×Ó¼¯£¬ÀûÓà GPT-4.1 ¸ù¾ÝͼƬ×Ô¶¯Éú³ÉÁ½ÀàÃèÊö£ºÒ»ÊǶàÑù»¯µÄ¼ò½àͼƬÃèÊö£¨°üÀ¨³£¹æÐðÊö¡¢»ùÓÚ±êÇ©ºÍÒÔÎïÌåΪÖÐÐĵÄÐðÊö£©£¬¶þÊǷḻµÄÍÆÀíʽ CoT£¨chain-of-thought£©ÐðÊö¡£¶à·ç¸ñµÄ¼ò½àͼƬÃèÊöÉè¼ÆÓÐЧ±ÜÃâÁËÄ£ÐÍÔÚ SFT ½×¶Î¶Ôµ¥Ò» prompt ģʽµÄ¹ýÄâºÏ¡£
Ëæºó£¬ReasonGen-R1 °´ÕÕ¡¸Prompt ¡ú CoT ¡ú
ͼ1. ReasonGen-R1 Ä£Ðͼܹ¹¸ÅÀÀ¡£ReasonGen-R1ͨ¹ý¼à¶½Î¢µ÷£¨SFT£©ÒÔ¼°Ç¿»¯Ñ§Ï°£¨RL£©Ê¹µÃÄ£ÐÍ¿ÉÒÔÏȽøÐÐÁ´Ê½ÍÆÀí£¬ÔÙÉú³É×îÖÕͼƬ¡£
Ç¿»¯Ñ§Ï°½×¶Îͨ¹ý Group Relative Policy Optimization£¨GRPO£©½øÒ»²½ÓÅ»¯Ä£ÐÍÊä³ö¡£ÎªÁËÓÐЧÆÀ¼ÛÉú³ÉÊä³öͼÏñµÄÖÊÁ¿ºÍÊäÈëÎı¾-Êä³öͼÏñµÄÒ»ÖÂÐÔ£¬ReasonGen-R1 ²ÉÓÃÁËԤѵÁ·ÊÓ¾õÓïÑÔÄ£ÐÍ Qwen-2.5-VL-7B ×÷Ϊ½±ÀøÄ£ÐÍ£¬ÈÃÆä¶ÔÓÚÿ¸öÊä³öͼƬ£¬¸ù¾ÝͼƬÒÔ¼°ÊäÈëÎı¾ÊÇ·ñÒ»Ö£¬¸ø³ö 0¡¢1 ½±Àø¡£
ͼ2. ReasonGen-R1Ç¿»¯Ñ§Ï°¿ò¼Ü¸ÅÀÀ¡£
´ËÍ⣬Ϊȷ±£ÑµÁ·Îȶ¨ÐÔ£¬ReasonGen-R1 Ìá³öÁËÒ»ÖָĽøµÄ×ÔÊÊÓ¦ìØËðʧº¯Êý£¬¸ÃËðʧº¯ÊýÄܹ»½«Êä³ö token µÄìØ¶¯Ì¬µ÷½Úµ½Ä¿±êìØ¸½½ü£¬ÓÐЧ·ÀÖ¹ÁËÔÚÎı¾Í¼Ïñ»ìºÏÇ¿»¯ÑµÁ·¹ý³ÌÖÐѵÁ·²»Îȶ¨µ¼ÖÂģʽ±ÀËúµÄÎÊÌâ¡£
ͼ3. ×ÔÊÊÓ¦ìØËðʧÖÐÓÃÓÚ¸üÐÂìØËðʧ²ÎÊýµÄloss function
ReasonGen-R1 ʵÑé½á¹û
ÍŶӻùÓÚ Janus-Pro-7B Ä£ÐÍ¶Ô ReasonGen-R1 ½øÐÐÁËÈ«·½Ãæ²âÊÔ£¬Ñ¡È¡ÁËÈý¸öͼÏñÉú³ÉÓïÒå×ñÑÖ¸±ê£ºGenEval¡¢DPG-Bench ÒÔ¼° T2I-Benchmark¡£
Èçͼ 4 Ëùʾ£¬ReasonGen-R1 ÔÚËùÓÐÖ¸±êÉ϶¼½Ï»ù×ùÄ£ÐÍÓÐÁËÏÔÖøµÄÌáÉý¡£ÕâЩ½á¹û±íÃ÷£¬½«Îı¾ÍÆÀíͨ¹ý SFT-RL µÄ¿ò¼ÜÓ¦ÓÃÓÚͼƬÉú³É£¬Äܹ»ÏÔÖøÌáÉý×ԻعéͼÏñÉú³ÉÄ£Ð͵ÄÐÔÄÜ¡£
ͼ4. ×óͼ£º»ù×ùÄ£ÐÍJanus-Pro-7BºÍReasonGen-R1Éú³ÉͼÏñ¿ÉÊÓ»¯±È½Ï£»ÓÒͼ£ºÈý¸öÖ¸Áî×ñÑÖ¸±êÉϵıíÏֱȽϡ£ReasonGen-R1ÔÚËùÓÐÖ¸±êÉϾù³¬¹ýÁË»ù×ùÄ£ÐÍ£¬ÌåÏÖÁËÖ¸Áî×ñÑÄÜÁ¦µÄ¾Þ´óÌáÉý¡£
ΪÉîÈë̽ÌÖ ReasonGen-R1 ¸÷¸öÄ£¿éµÄ¹±Ï×£¬Ñо¿»¹½øÐÐÁËÒÔÏÂÏûÈÚʵÑ飺
SFT ½×¶ÎµÄ×÷ÓãºÎªÁ˲âÊÔ SFT ½×¶Î¶ÔÓÚÄ£ÐÍ×îÖÕÐÔÄܵÄÓ°Ï죬ReasonGen-R1 ¶Ô±ÈÁËÖ±½ÓÇ¿»¯Ñ§Ï°µÄ½á¹û¡£Èç±í 1 Ëùʾ£¬½öʹÓÃÇ¿»¯Ñ§Ï°£¨RL£©¶øÎ´½øÐмල΢µ÷£¨SFT£©Ê±£¬Ä£ÐͱíÏÖÏÔÖøÏ½µ£¬Ö¤Ã÷ÁË SFT ½×¶Î¶ÔÄ£ÐͺóÐøÇ¿»¯Ñ§Ï°½×¶ÎµÄÖØÒªÐÔ¡£
½±ÀøÄ£Ð͹æÄ£Ó°Ï죺ʵÑ黹¶Ô±ÈÁ˲»Í¬´óСµÄ½±ÀøÄ£ÐÍ¡£Èç±í 1 Ëùʾ£¬½ÏС¹æÄ£µÄ½±ÀøÄ£ÐÍ£¨Qwen-2.5-VL-3B£©ÎÞ·¨Ìṩ×ã¹»¾«×¼µÄ·´À¡Ðźţ¬ÑÏÖØÓ°ÏìÇ¿»¯Ñ§Ï°½×¶ÎµÄ±íÏÖ¡£Òò´Ë£¬Ñ¡Ôñ¸ß¾«¶È¡¢´ó¹æÄ£µÄ½±ÀøÄ£ÐÍÖÁ¹ØÖØÒª¡£
±í1. ReasonGen-R1ÔÚGenEvalÖ¸±êÉ϶ÔÓڼܹ¹Éè¼ÆµÄÏûÈÚʵÑé
×ÔÊÊÓ¦ìØËðʧº¯ÊýµÄÎȶ¨×÷ÓãºÈçͼ 6 Ëùʾ£¬ÔÚûÓÐìØËðʧµÄÇé¿öÏ£¬Ä£ÐÍÔÚ¾¹ý 100 ²½µÄѵÁ·ºó»á³öÏÖìØ±¬Õ¨£¬Í¬Ê± Reward ¿ªÊ¼»ºÂýϽµ¡£ÁíÒ»·½Ã棬ʩ¼Ó¹Ì¶¨ìسͷ££¨¨C0.002£©»áÊ¹ìØ³ÖÐøÏ½µ£¬²¢ÔÚµÚ 80 ²½Ê±¹ýµÍ£¬½ø¶øÒý·¢Í¼Æ¬Éú³Éģʽ±ÀËúºÍ½±Àø¼±¾çÏ»¬¡£ÕâЩÏÖÏó͹ÏÔÁËÔÚ½»´íÎı¾ÓëͼÏñµÄ RL ѵÁ·ÖУ¬¶ÔÓÚìØËðʧÕýÔò»¯ÉèÖõÄÃô¸ÐÐÔ¡£Ïà±È֮ϣ¬²ÉÓà ReasonGen-R1 Ìá³öµÄ×ÔÊÊÓ¦ìØËðʧÄܹ»½«ìر£³ÖÔÚ×î¼Ñ·¶Î§ÄÚ£¬È·±£ÑµÁ·¹ý³ÌµÄÎȶ¨ÐÔÒÔ¼°½±ÀøµÄÎȶ¨Ôö³¤¡£
ͼ6. ¶ÔÓÚ¸÷¸öìØÕýÔò»¯²ßÂÔÔÚÇ¿»¯Ñ§Ï°ÖеÄЧ¹û±È½Ï
ReasonGen-R1 CoT ·ÖÎö
ͼ7. 1000´ÎCoTÊä³öÖеĵ¥´ÊƵÂÊ¡£Ö»ÓгöÏÖÆµÂʸßÓÚ20%µÄµ¥´Ê±»Õ¹Ê¾¡£³öÏÖÆµÂÊ×î¸ßµÄÈý¸ö¡¯a, an, the¡¯±»ÒƳýÒÔ¹Ø×¢±£»¤¸ü¶àÐÅÏ¢µÄ´ÊÓï
ͼ 7 չʾÁË ReasonGen-R1 ÍÆÀíÁ´µÄģʽ¡£Ê×ÏÈ£¬Ëüͨ¹ý¡¸¸ÐÖª¡¹£¨sense£©¡¢¡¸³¡¾°¡¹£¨scene£©ºÍ¡¸×ÔÈ»¡¹£¨natural£©µÈ¸ßƵ´Ê£¨ÔÚ³¬¹ý 140% µÄ CoT ÖгöÏÖ£©À´µì¶¨×ÜÌå¿ò¼Ü£¬Ç¿µ÷ÕûÌåÓï¾³ºÍÕæÊµ³¡¾°¡£½Ó×Å£¬Ëüϸ»¯ÊÓ¾õ·ç¸ñ£ºÖîÈ硸ÈáºÍ¡¹£¨soft£©¡¢¡¸¸ß¹â¡¹£¨highlights£©¡¢¡¸·ÕΧ¡¹£¨mood£©ºÍ¡¸Á÷³©¡¹£¨sleek£©µÈ´Ê»ã£¨¾ùÔÚ³¬¹ý 100% µÄ CoT ÖгöÏÖ£©ÓÃÒÔÃèÊö¹âÕÕÖÊÁ¿¡¢Çé¸Ð»ùµ÷ºÍÖʸС£
¸ü¹Ø¼üµÄÊÇ£¬¡¸Í»³ö¡¹£¨highlighting£©ºÍ¡¸Ç¿µ÷¡¹£¨emphasizing£©ÕâÁ½¸ö´Ê¸÷×ÔÔÚÖÁÉÙ 70% µÄ CoT ÖгöÏÖ£¬±íÃ÷Ä£ÐÍÓÐÒâʶµØ¾Û½¹ÓÚÖ÷ÒªÖ÷Ìå¡£Õâ½Òʾ³ö ReasonGen-R1 ²»½ö½öÊÇÔÚÃèÊöÎïÌ壬¶øÊÇÔÚÖ÷¶¯¹æ»®¹¹Í¼½¹µã¡£
³ýÁ˺ËÐÄ´Ê»ãÍ⣬ReasonGen-R1 »¹ÔËÓÃÁË´óÁ¿ÐÞÊδʡª¡ª¡¸±³¾°¡¹£¨background£©ÓÃÓÚ½¨Á¢»·¾³·ÕΧ£»¡¸ÌØÕ÷¡¹£¨features£©ÓÃÓÚÍ»³öÏÔÖøÊÓ¾õÔªËØ£»¡¸Äþ¾²¡¹£¨calm£©ÓÃÓÚäÖȾƽºÍ·ÕΧ£»¡¸Ë²¼ä¡¹£¨moments£©ÓÃÓÚ´«´ïʱ¼ä×¥ÅĸУ»¡¸²¶×½¡¹£¨captured£©ÓÃÓÚÇ¿µ÷ÉãÓ°ÕæÊµ¸Ð£»µÈµÈ¡ª¡ªÒÔÔÚÿÌõÍÆÀíÐòÁÐÖÐ×¢ÈëϸÄåµÄ¡¢Çé¾³»¯µÄϸ½Ú¡£
×ÜÌå¶øÑÔ£¬ReasonGen-R1 µÄÍÆÀíÁ´Í¨¹ý³¡¾°¿ò¼Ü¡¢·ç¸ñϸ½Ú¡¢Ö÷Ìå¾Û½¹ºÍϸ½ÚÐÞÊεÈÒªËØ£¬ÓÐЧµØÒýµ¼ÁËͼÏñÉú³É¹ý³Ì¡£
¡¶男同GaY✅打屁股网站¡·£¬¡¶P6F3X2M7T9QJ8L1B4WZR¡·❤美女扒开胸让男生狂揉
¡°猛男GayGay✅视频网站¡±
美女被❌脱脱内内做运动中国人
¡¡
06ÔÂ22ÈÕ
¡°欧美乱战大交XXXXX¡±粉丝狂扔娃娃奖励“陈全”姐妹花
¡ý¡ý¡ý
06ÔÂ22ÈÕ£¬北京保利2024秋拍即将举槌 傅抱石、吴冠中、弘一等大师作品亮相£¬🔞男生🍆❌男生🍑里www£¬动漫❌c🐻黄扒衣服视频£¬指挥官配情侣第三季剧情介绍£¬男欢女爱免费观看电视剧大全下载
06ÔÂ22ÈÕ£¬“部长通道”里解“真问题”£¬甘雨被触手怪❌吸乳的£¬张柏芝性做爰A片免费看£¬小🐔🐔伸进🈲🔞🔞天涯£¬八重神子被吸乳羞羞动漫
06ÔÂ22ÈÕ£¬有期徒刑三年!李佩霞受贿案一审宣判£¬桌子下的小兰,满意的领导£¬欧美三人囗交做爰£¬uyghur%20jalap£¬王者荣耀姬小满身材
06ÔÂ22ÈÕ|熊猫杯国际足球锦标赛:中国U19男足收获“开门红”|6月电子厂沟厕大香蕉在广东哪里|男人的🍌伸到男人🍑里的小说|老师扒开腿㊙️让我爽了网站|少萝被❌脱脱内内做运动天涯
06ÔÂ22ÈÕ|北江可能发生特大洪水 珠江防总、珠江委将应急响应级别提升至Ⅱ级|古装美女被扒衣服糟蹋|英语老师让我把手夹入🍑|男人㊙️桶进女人下面91|捆绑爆乳18禁🔞胶衣
06ÔÂ22ÈÕ|外媒:美军对胡塞武装发动新一轮袭击|千仞雪被扒开大腿❌❌漫画|用力⋯哦⋯高潮⋯喷水|妮可基德曼裸被❌视频网站|公啊好痛嗯嗯哦哦哦¡¡
06ÔÂ22ÈÕ£¬锚定现代化 改革再深化丨浙江临海:一块豆腐,折射共富工坊建设新未来£¬国产性猛交❌XX❌乱视频£¬ATID-476椎冰怜在线播放£¬儿媳建建月月第9章£¬章若楠㊙️被男人桶到爽在线观看
06ÔÂ22ÈÕ£¬海口产业园区发展势头强劲 产业集群效应显现£¬美女的裸体㊙️免费全站£¬于文华裸体大片免费观看£¬橘子成人直播网站£¬极品老熟女❌❌❌96视频
06ÔÂ22ÈÕ|(聚焦中国高质量发展)走进野象谷|男生露出🐔🐔给别人摸|女人👙摸🐻亲嘴的视频|女人的c是什么意思|小区电梯里大便的爆料事件
06ÔÂ22ÈÕ£¬中国正能量|晋琼古韵中的文化自信£¬日本❌❌❌❌❌色情40/£¬变性后摸小豆豆快感知乎£¬原神秘黄动漫免费网站£¬91久久人澡人人添人人爽乱
06ÔÂ22ÈÕ£¬【理响中国】深入理解“八八战略”的方法论£¬Asmr婬荡娇喘录音£¬妮可基德曼三点尽露三级£¬🔞🍌进去里❌❌❌£¬96精品㊙️无码一区二区动漫
06ÔÂ22ÈÕ£¬延续34年外交传统,中国外长开年访非有何看点?£¬熟妇人妻中文AV无码6070£¬俄69女厕偷窥撒尿£¬大胸美女挤奶㊙️视频£¬免费看黄网站☀入口动漫
06ÔÂ22ÈÕ|让更多工匠人才有“面子”有“里子”|赵琳裸体被❌叫爽|白丝大乔🌸扒腿爽出白色液体|杨晨晨打开双腿❌露隐私|色情黄纲手强❌乳喷自慰游戏3b
06ÔÂ22ÈÕ|海内外电商“龙”元素火爆|狂操空姐av|亚洲第243页|山村乳妇奶汁|小13箩利自慰洗澡裸体作文
06ÔÂ22ÈÕ|利落干练 “巴恩风”穿搭火了|好湿好紧好多水含羞草|动漫❌c🐻黄扒衣服做小电|男男润滑扩张疼哭求饶视频|女同床震吃奶互揉高潮软件
蒋奇明演于适老丈人£¬粉丝狂扔娃娃奖励“陈全”姐妹花|上海、呼和浩特免费送交通卡?河南的冬天会下暴雨?这些谣言请勿相信!|.17c嫩嫩草色视频蜜桃|虫茧女王黑化前有多美|傻叉夏季树可下滑第二季|甘雨被❌到爽🔞高潮痉挛
¼àÖÆ£ºµË½ðľ
²ß»®£ºÀµêÏ
Ö÷´´£ºÌÆÕ÷Óî ÁÖóðºØ ³Â·ðºæ ÑÕÒàÑô ³ÂÁÖÔÏ
±à¼£ºÍõ¼Òݼ¡¢¶ÎÊ¥ì÷
Ãö¹«Íø°²±¸ 35010302000113ºÅ