½üÄêÀ´£¬Á´Ê½ÍÆÀíºÍÇ¿»¯Ñ§Ï°ÒѾ±»¹ã·ºÓ¦ÓÃÓÚ´óÓïÑÔÄ£ÐÍ£¬ÈôóÓïÑÔÄ£Ð͵ÄÍÆÀíÄÜÁ¦µÃµ½ÁËÏÔÖøÌáÉý¡£È»¶ø£¬ÔÚͼÏñÉú³ÉÄ£ÐÍÖУ¬ÕâÖֳɹ¦¾ÑéÉÐδµÃµ½³ä·Ö̽Ë÷¡£Í¼ÏñÉú³ÉÄ£ÐÍÍùÍùÖ±½ÓÒÀ¾Ý¸ø¶¨Îı¾Éú³ÉͼÏñ£¬È±·¦ÀàËÆÈËÀà´´×÷¹ý³ÌÖеÄÍÆÀí£¬µ¼ÖÂÉú³ÉµÄͼÏñÔÚÓïÒå×ñÑÉÏÈÔÓÐÒ»¶¨¾ÖÏÞ¡£
½üÆÚ£¬ÉϺ£¿Æ¼¼´óѧ¡¢Î¢ÈíÑÇÖÞÑо¿ÔººÍ¸´µ©´óѧÌá³öÁË ReasonGen-R1 ¿ò¼Ü£¬Ò»¸öÁ½½×¶ÎѵÁ·¿ò¼Ü£¬½«Á´Ê½ÍÆÀí¼à¶½Î¢µ÷£¨Supervised Fine-tuning£©ÓëÇ¿»¯Ñ§Ï°£¨Reinforcement Learning£©Ïà½áºÏ£¬ÒÔÌáÉý×ԻعéͼÏñÉú³ÉÄ£Ð͵ÄÍÆÀíºÍ´´×÷ÄÜÁ¦¡£ReasonGen-R1 ʹµÃ×ԻعéͼÏñÉú³ÉÄ£ÐÍ¿ÉÒԶ˵½¶ËµØÔÚÊä³öͼƬ֮ǰÏȽøÐÐÎı¾¡¸Ë¼¿¼¡¹£¬´ó·ùÌáÉýÁË»ù×ùÄ£Ð͵ÄÓïÒå×ñÑÄÜÁ¦£¬²¢ÔÚ¶à¸öÓïÒåÖ¸±êÉÏÈ¡µÃÍ»ÆÆ¡£
Ŀǰ£¬ReasonGen-R1 ÒÑÈ«Ãæ¿ªÔ´£¨°üÀ¨ÑµÁ·¡¢ÆÀ²â´úÂ룬ѵÁ·Êý¾ÝÒÔ¼°Ä£ÐÍ£©¡£
ÂÛÎıêÌ⣺ReasonGen-R1: CoT for Autoregressive Image Generation model through SFT and RLArxiv µØÖ·£ºhttps://arxiv.org/abs/2505.24875´úÂëµØÖ·£ºhttps://github.com/Franklin-Zhang0/ReasonGen-R1ÏîÄ¿Ö÷Ò³£ºhttps://reasongen-r1.github.io
·½·¨¸ÅÀÀ
ReasonGen-R1 µÄѵÁ·°üÀ¨Á½¸öºËÐĽ׶Σº¼à¶½Î¢µ÷½×¶Î£¨SFT£©ÒÔ¼°Ç¿»¯Ñ§Ï°½×¶Î£¨RL£©¡£
¼à¶½Î¢µ÷½×¶ÎÊ×Ïȹ¹½¨ÁËÒ»¸ö´ó¹æÄ£Í¼Æ¬Éú³ÉÍÆÀíÊý¾Ý¼¯£¬¹²°üº¬ 20 ÍòÌõͼÏñ-Îı¾¶Ô¡£¸ÃÊý¾Ý¼¯»ùÓÚ LAION ÃÀѧ×Ó¼¯£¬ÀûÓà GPT-4.1 ¸ù¾ÝͼƬ×Ô¶¯Éú³ÉÁ½ÀàÃèÊö£ºÒ»ÊǶàÑù»¯µÄ¼ò½àͼƬÃèÊö£¨°üÀ¨³£¹æÐðÊö¡¢»ùÓÚ±êÇ©ºÍÒÔÎïÌåΪÖÐÐĵÄÐðÊö£©£¬¶þÊǷḻµÄÍÆÀíʽ CoT£¨chain-of-thought£©ÐðÊö¡£¶à·ç¸ñµÄ¼ò½àͼƬÃèÊöÉè¼ÆÓÐЧ±ÜÃâÁËÄ£ÐÍÔÚ SFT ½×¶Î¶Ôµ¥Ò» prompt ģʽµÄ¹ýÄâºÏ¡£
Ëæºó£¬ReasonGen-R1 °´ÕÕ¡¸Prompt ¡ú CoT ¡ú
ͼ1. ReasonGen-R1 Ä£Ðͼܹ¹¸ÅÀÀ¡£ReasonGen-R1ͨ¹ý¼à¶½Î¢µ÷£¨SFT£©ÒÔ¼°Ç¿»¯Ñ§Ï°£¨RL£©Ê¹µÃÄ£ÐÍ¿ÉÒÔÏȽøÐÐÁ´Ê½ÍÆÀí£¬ÔÙÉú³É×îÖÕͼƬ¡£
Ç¿»¯Ñ§Ï°½×¶Îͨ¹ý Group Relative Policy Optimization£¨GRPO£©½øÒ»²½ÓÅ»¯Ä£ÐÍÊä³ö¡£ÎªÁËÓÐЧÆÀ¼ÛÉú³ÉÊä³öͼÏñµÄÖÊÁ¿ºÍÊäÈëÎı¾-Êä³öͼÏñµÄÒ»ÖÂÐÔ£¬ReasonGen-R1 ²ÉÓÃÁËԤѵÁ·ÊÓ¾õÓïÑÔÄ£ÐÍ Qwen-2.5-VL-7B ×÷Ϊ½±ÀøÄ£ÐÍ£¬ÈÃÆä¶ÔÓÚÿ¸öÊä³öͼƬ£¬¸ù¾ÝͼƬÒÔ¼°ÊäÈëÎı¾ÊÇ·ñÒ»Ö£¬¸ø³ö 0¡¢1 ½±Àø¡£
ͼ2. ReasonGen-R1Ç¿»¯Ñ§Ï°¿ò¼Ü¸ÅÀÀ¡£
´ËÍ⣬Ϊȷ±£ÑµÁ·Îȶ¨ÐÔ£¬ReasonGen-R1 Ìá³öÁËÒ»ÖָĽøµÄ×ÔÊÊÓ¦ìØËðʧº¯Êý£¬¸ÃËðʧº¯ÊýÄܹ»½«Êä³ö token µÄìØ¶¯Ì¬µ÷½Úµ½Ä¿±êìØ¸½½ü£¬ÓÐЧ·ÀÖ¹ÁËÔÚÎı¾Í¼Ïñ»ìºÏÇ¿»¯ÑµÁ·¹ý³ÌÖÐѵÁ·²»Îȶ¨µ¼ÖÂģʽ±ÀËúµÄÎÊÌâ¡£
ͼ3. ×ÔÊÊÓ¦ìØËðʧÖÐÓÃÓÚ¸üÐÂìØËðʧ²ÎÊýµÄloss function
ReasonGen-R1 ʵÑé½á¹û
ÍŶӻùÓÚ Janus-Pro-7B Ä£ÐÍ¶Ô ReasonGen-R1 ½øÐÐÁËÈ«·½Ãæ²âÊÔ£¬Ñ¡È¡ÁËÈý¸öͼÏñÉú³ÉÓïÒå×ñÑÖ¸±ê£ºGenEval¡¢DPG-Bench ÒÔ¼° T2I-Benchmark¡£
Èçͼ 4 Ëùʾ£¬ReasonGen-R1 ÔÚËùÓÐÖ¸±êÉ϶¼½Ï»ù×ùÄ£ÐÍÓÐÁËÏÔÖøµÄÌáÉý¡£ÕâЩ½á¹û±íÃ÷£¬½«Îı¾ÍÆÀíͨ¹ý SFT-RL µÄ¿ò¼ÜÓ¦ÓÃÓÚͼƬÉú³É£¬Äܹ»ÏÔÖøÌáÉý×ԻعéͼÏñÉú³ÉÄ£Ð͵ÄÐÔÄÜ¡£
ͼ4. ×óͼ£º»ù×ùÄ£ÐÍJanus-Pro-7BºÍReasonGen-R1Éú³ÉͼÏñ¿ÉÊÓ»¯±È½Ï£»ÓÒͼ£ºÈý¸öÖ¸Áî×ñÑÖ¸±êÉϵıíÏֱȽϡ£ReasonGen-R1ÔÚËùÓÐÖ¸±êÉϾù³¬¹ýÁË»ù×ùÄ£ÐÍ£¬ÌåÏÖÁËÖ¸Áî×ñÑÄÜÁ¦µÄ¾Þ´óÌáÉý¡£
ΪÉîÈë̽ÌÖ ReasonGen-R1 ¸÷¸öÄ£¿éµÄ¹±Ï×£¬Ñо¿»¹½øÐÐÁËÒÔÏÂÏûÈÚʵÑ飺
SFT ½×¶ÎµÄ×÷ÓãºÎªÁ˲âÊÔ SFT ½×¶Î¶ÔÓÚÄ£ÐÍ×îÖÕÐÔÄܵÄÓ°Ï죬ReasonGen-R1 ¶Ô±ÈÁËÖ±½ÓÇ¿»¯Ñ§Ï°µÄ½á¹û¡£Èç±í 1 Ëùʾ£¬½öʹÓÃÇ¿»¯Ñ§Ï°£¨RL£©¶øÎ´½øÐмල΢µ÷£¨SFT£©Ê±£¬Ä£ÐͱíÏÖÏÔÖøÏ½µ£¬Ö¤Ã÷ÁË SFT ½×¶Î¶ÔÄ£ÐͺóÐøÇ¿»¯Ñ§Ï°½×¶ÎµÄÖØÒªÐÔ¡£
½±ÀøÄ£Ð͹æÄ£Ó°Ï죺ʵÑ黹¶Ô±ÈÁ˲»Í¬´óСµÄ½±ÀøÄ£ÐÍ¡£Èç±í 1 Ëùʾ£¬½ÏС¹æÄ£µÄ½±ÀøÄ£ÐÍ£¨Qwen-2.5-VL-3B£©ÎÞ·¨Ìṩ×ã¹»¾«×¼µÄ·´À¡Ðźţ¬ÑÏÖØÓ°ÏìÇ¿»¯Ñ§Ï°½×¶ÎµÄ±íÏÖ¡£Òò´Ë£¬Ñ¡Ôñ¸ß¾«¶È¡¢´ó¹æÄ£µÄ½±ÀøÄ£ÐÍÖÁ¹ØÖØÒª¡£
±í1. ReasonGen-R1ÔÚGenEvalÖ¸±êÉ϶ÔÓڼܹ¹Éè¼ÆµÄÏûÈÚʵÑé
×ÔÊÊÓ¦ìØËðʧº¯ÊýµÄÎȶ¨×÷ÓãºÈçͼ 6 Ëùʾ£¬ÔÚûÓÐìØËðʧµÄÇé¿öÏ£¬Ä£ÐÍÔÚ¾¹ý 100 ²½µÄѵÁ·ºó»á³öÏÖìØ±¬Õ¨£¬Í¬Ê± Reward ¿ªÊ¼»ºÂýϽµ¡£ÁíÒ»·½Ã棬ʩ¼Ó¹Ì¶¨ìسͷ££¨¨C0.002£©»áÊ¹ìØ³ÖÐøÏ½µ£¬²¢ÔÚµÚ 80 ²½Ê±¹ýµÍ£¬½ø¶øÒý·¢Í¼Æ¬Éú³Éģʽ±ÀËúºÍ½±Àø¼±¾çÏ»¬¡£ÕâЩÏÖÏó͹ÏÔÁËÔÚ½»´íÎı¾ÓëͼÏñµÄ RL ѵÁ·ÖУ¬¶ÔÓÚìØËðʧÕýÔò»¯ÉèÖõÄÃô¸ÐÐÔ¡£Ïà±È֮ϣ¬²ÉÓà ReasonGen-R1 Ìá³öµÄ×ÔÊÊÓ¦ìØËðʧÄܹ»½«ìر£³ÖÔÚ×î¼Ñ·¶Î§ÄÚ£¬È·±£ÑµÁ·¹ý³ÌµÄÎȶ¨ÐÔÒÔ¼°½±ÀøµÄÎȶ¨Ôö³¤¡£
ͼ6. ¶ÔÓÚ¸÷¸öìØÕýÔò»¯²ßÂÔÔÚÇ¿»¯Ñ§Ï°ÖеÄЧ¹û±È½Ï
ReasonGen-R1 CoT ·ÖÎö
ͼ7. 1000´ÎCoTÊä³öÖеĵ¥´ÊƵÂÊ¡£Ö»ÓгöÏÖÆµÂʸßÓÚ20%µÄµ¥´Ê±»Õ¹Ê¾¡£³öÏÖÆµÂÊ×î¸ßµÄÈý¸ö¡¯a, an, the¡¯±»ÒƳýÒÔ¹Ø×¢±£»¤¸ü¶àÐÅÏ¢µÄ´ÊÓï
ͼ 7 չʾÁË ReasonGen-R1 ÍÆÀíÁ´µÄģʽ¡£Ê×ÏÈ£¬Ëüͨ¹ý¡¸¸ÐÖª¡¹£¨sense£©¡¢¡¸³¡¾°¡¹£¨scene£©ºÍ¡¸×ÔÈ»¡¹£¨natural£©µÈ¸ßƵ´Ê£¨ÔÚ³¬¹ý 140% µÄ CoT ÖгöÏÖ£©À´µì¶¨×ÜÌå¿ò¼Ü£¬Ç¿µ÷ÕûÌåÓï¾³ºÍÕæÊµ³¡¾°¡£½Ó×Å£¬Ëüϸ»¯ÊÓ¾õ·ç¸ñ£ºÖîÈ硸ÈáºÍ¡¹£¨soft£©¡¢¡¸¸ß¹â¡¹£¨highlights£©¡¢¡¸·ÕΧ¡¹£¨mood£©ºÍ¡¸Á÷³©¡¹£¨sleek£©µÈ´Ê»ã£¨¾ùÔÚ³¬¹ý 100% µÄ CoT ÖгöÏÖ£©ÓÃÒÔÃèÊö¹âÕÕÖÊÁ¿¡¢Çé¸Ð»ùµ÷ºÍÖʸС£
¸ü¹Ø¼üµÄÊÇ£¬¡¸Í»³ö¡¹£¨highlighting£©ºÍ¡¸Ç¿µ÷¡¹£¨emphasizing£©ÕâÁ½¸ö´Ê¸÷×ÔÔÚÖÁÉÙ 70% µÄ CoT ÖгöÏÖ£¬±íÃ÷Ä£ÐÍÓÐÒâʶµØ¾Û½¹ÓÚÖ÷ÒªÖ÷Ìå¡£Õâ½Òʾ³ö ReasonGen-R1 ²»½ö½öÊÇÔÚÃèÊöÎïÌ壬¶øÊÇÔÚÖ÷¶¯¹æ»®¹¹Í¼½¹µã¡£
³ýÁ˺ËÐÄ´Ê»ãÍ⣬ReasonGen-R1 »¹ÔËÓÃÁË´óÁ¿ÐÞÊδʡª¡ª¡¸±³¾°¡¹£¨background£©ÓÃÓÚ½¨Á¢»·¾³·ÕΧ£»¡¸ÌØÕ÷¡¹£¨features£©ÓÃÓÚÍ»³öÏÔÖøÊÓ¾õÔªËØ£»¡¸Äþ¾²¡¹£¨calm£©ÓÃÓÚäÖȾƽºÍ·ÕΧ£»¡¸Ë²¼ä¡¹£¨moments£©ÓÃÓÚ´«´ïʱ¼ä×¥ÅĸУ»¡¸²¶×½¡¹£¨captured£©ÓÃÓÚÇ¿µ÷ÉãÓ°ÕæÊµ¸Ð£»µÈµÈ¡ª¡ªÒÔÔÚÿÌõÍÆÀíÐòÁÐÖÐ×¢ÈëϸÄåµÄ¡¢Çé¾³»¯µÄϸ½Ú¡£
×ÜÌå¶øÑÔ£¬ReasonGen-R1 µÄÍÆÀíÁ´Í¨¹ý³¡¾°¿ò¼Ü¡¢·ç¸ñϸ½Ú¡¢Ö÷Ìå¾Û½¹ºÍϸ½ÚÐÞÊεÈÒªËØ£¬ÓÐЧµØÒýµ¼ÁËͼÏñÉú³É¹ý³Ì¡£
¡¶男男GaYGAYS✅体育生小说¡·£¬¡¶P6F3X2M7T9QJ8L1B4WZR¡·97在线无码精品㊙️入口男同
¡°梅根福克斯激情A片在线观看¡±
韩漫嗟嗟嗟漫画
¡¡
06ÔÂ22ÈÕ
¡°.ลตลหไจ.com¡±孙颖莎回应王楚钦看自己脸色
¡ý¡ý¡ý
06ÔÂ22ÈÕ£¬候鸟“先遣部队”北归 已抵达兴凯湖畔£¬流萤被❌吸乳脱内内崩铁£¬飞机上做羞羞的事情视频£¬新疆旱厕偷窃的最新进展情况£¬办公室乳舔孕妇
06ÔÂ22ÈÕ£¬用好“博物馆热” 培育青少年文化自信£¬校花给我看㊙️£¬嗯~啊~快点死我视频在线£¬同性男男黄G片免费网站18禁无码£¬今夜无人入睡免费观看第7集
06ÔÂ22ÈÕ£¬中办、国办:推进新型城市基础设施建设打造韧性城市£¬王者荣耀姬小满身材£¬成人app软件下载大全免费£¬Yellow片£¬❌❌❌免费裸体游戏
06ÔÂ22ÈÕ|《阿盖尔:神秘特工》中国首映 上演特工环球冒险故事|原神3D被挤奶❌吸乳羞羞|被❌c🐻扒衣服网站|惩罚女仆扒开🍑打屁屁动漫|魔女魅魔玉足榨精调教小说
06ÔÂ22ÈÕ|专精特新企业营收保持较快增长|蔗糖职业|白嫩小骚0被猛男草尿视频|蓝莓❌c到爽🔞H视频|玉门姑娘初为君开
06ÔÂ22ÈÕ|2024中国非遗面食大会在山西太原开幕|大胸美女爆乳❌舞动屁股|45番列车游戏|4399打初音pg游戏原版|国产村妇肉体AAAA片¡¡
06ÔÂ22ÈÕ£¬“五一”假期迎返程高峰 北京警方护航出行平安£¬永劫无间季莹莹裸体被c£¬撅高了边打屁股边C男男£¬久久久久久97£¬350234去看吧,孩子们
06ÔÂ22ÈÕ£¬两会受权发布丨第十四届全国人民代表大会第二次会议秘书处关于代表提出议案处理意见的报告£¬女奥特曼被❌到爽£¬扣扣精品㊙️国产传媒MV£¬娜美被扒开大腿被❌£¬日本❌❌❌❌❌色情40/
06ÔÂ22ÈÕ|AI+藏医人体生命科学 业界专家在青讨论新医科|邪恶天堂⭐️邪恶道全彩|老妇人泄欲x88AV|姬小满裸乳被c|肚兜藏不住两团雪白军营
06ÔÂ22ÈÕ£¬西藏林周:高原鹤韵美£¬亚洲AⅤ丰满性ⅩⅩXXOO£¬www.sex118.com£¬七龙珠h18号龟仙人h全彩£¬性潮喷XXXXXHDⅩ水多国语
06ÔÂ22ÈÕ£¬北京正筹建可重复使用火箭技术创新中心£¬女学霸没考好被捏胸大屁股£¬白鹭与白浊h文神里绫华£¬伦理视频无码色情在线观看£¬末成年喷浆❌❌❌电视
06ÔÂ22ÈÕ£¬将现金藏在电饭煲中寄出才能领取“刷单返利”?警惕诈骗新套路£¬人獸交片av网站£¬碧蓝航线裸乳被爆白浆的视频£¬98在线无码精品㊙️入口男同£¬小舞私密黄www网站在线看
06ÔÂ22ÈÕ|微型计算机嵌入日常服装 智能纤维让可穿戴电子设备迈进现实|一级做湲|赵露思裸体㊙️无遮挡|91无码➕高潮➕在线不卡|英雄联盟本子h18资源
06ÔÂ22ÈÕ|“浙版·全民阅读大篷车”发车 让乡村阅读服务更灵活|瑶脱了内裤给我❌的图片|我用🍆摩擦同桌的🐻|女性捆绑免费网站|3D秦怡宁同人动漫免费无码观看
06ÔÂ22ÈÕ|南凭高铁崇凭段进入全面铺轨阶段|AI迪丽热巴被❌出水来|美女露出全部隐私㊙️视频|坤坤戳进别人🍑里游戏趣夜|白丝小舞夹腿挣扎求饶的漫画内容
春运里的活力中国£¬Ning老头杯一选TheShy|火山徒步有风险 印尼旅游业者提醒绷紧“安全弦”|一女三男做爰3p太爽了|裸体春丽被❌到爽网站|ben10同人❌黄漫下载|🔞🍌进🍑里❌❌❌片成人
¼àÖÆ£ºµË½ðľ
²ß»®£ºÀµêÏ
Ö÷´´£ºÌÆÕ÷Óî ÁÖóðºØ ³Â·ðºæ ÑÕÒàÑô ³ÂÁÖÔÏ
±à¼£ºÍõ¼Òݼ¡¢¶ÎÊ¥ì÷
Ãö¹«Íø°²±¸ 35010302000113ºÅ