
本期大模型进展专栏“热点事件追踪”栏目,聚焦2025年11月份的大模型前沿突破,大模型技术从认知深化迈向生态共建与产业渗透,展现出三大核心趋势:(1)认知能力持续突破,阿里Qwen3-Max的“深度思考”与谷歌Gemini 3的博士级推理重塑了复杂问题解决标准,OpenAI GPT-5.1的情感化交互与Grok 4.1的思维-情感双突破则推动了AI从工具向伙伴演进;(2)技术栈深度融合与开源开放,商汤SenseNova-SI在空间智能领域超越GPT-5与Gemini 2.5 Pro,百度文心5.0以原生全模态架构引领多模态融合,而腾讯KaLM-Embedding登顶多语言榜单、摩尔线程URPO革新对齐范式,则彰显了开源生态与底层技术的协同进化;(3)产业落地与系统级解决方案成熟,阿里AgentScope推动多智能体走向企业级部署,中科院“磐石V1.5”实现科研全链路赋能,伯克利StreamDiffusionV2达成实时视频生成,小米MiMo-Embodied统一自动驾驶与机器人智能建模,以及首尔国立与达摩院的视觉研究从源头抑制幻觉、突破像素级理解,共同标志着AI正从实验室创新全面迈向复杂场景的系统级应用。本期大模型进展专栏“热点事件追踪”栏目,我们特邀中国兵器工业集团第二〇七研究所刘文杰老师,为大家解读近期全球范围内大模型相关的热点事件。
一、阿里通义千问上线深度思考功能,Qwen3-Max以增强推理能力重塑语言模型标杆
11月2日,阿里云正式宣布其通义千问系列旗舰模型——Qwen3-Max在官网推出“深度思考”模式,该功能通过强化推理链分析机制与多步骤问题拆解策略,显著提升了模型在复杂任务中的处理效率与准确性。作为通义团队迄今规模最大、能力最强的语言模型,Qwen3-Max于9月24日推出,参数量已突破1万亿,预训练数据规模高达36万亿 tokens。在功能表现上,Qwen3-Max-Instruct正式版进一步优化了代码生成与智能体任务执行能力,在涵盖知识问答、逻辑推理、多语言理解、编程、指令遵循及人机对齐的综合基准评测中均达到业界领先水平。尤为引人注目的是,结合工具调用与测试时计算资源增强的Qwen3-Max-Thinking版本,已在AIME 25、HMMT等高难度数学与逻辑推理基准中实现100%的准确率,展现出卓越的认知与推演能力。
简评:Qwen3-Max“深度思考”功能的推出,标志着大模型技术从规模扩张迈向“高质量推理”的关键转折。其在多项高难度基准中的全胜表现,不仅验证了增强推理链与多步拆解机制的有效性,更体现出模型在数学、逻辑等高阶认知任务中的巨大潜力。这为语言模型在科研辅助、复杂决策、教育交互等场景的落地提供了更强技术支撑。然而,如何在高准确率与响应效率之间取得平衡,以及在开放环境中保持稳定的任务泛化能力,仍是模型进一步实用化需突破的关键。通义千问此举,无疑为全球语言模型的技术演进树立了新的标杆,也进一步推动了AI从“感知理解”向“认知推演”的纵深发展。
二、阿里云AgentScope发布重大更新,多智能体框架推进企业级场景化落地
11月5日,阿里云通义千问宣布对其多智能体框架AgentScope 1.0进行重磅升级,新增两款开源智能体并全面强化核心能力,进一步推动多智能体技术从开发验证走向企业级规模化部署。本次更新以“场景化开箱”为核心亮点,Alias-Agent支持ReAct、Deep-Research等四模式动态切换,在金融分析、实时信息处理等任务中实现智能调度与沙箱安全管控;Data-Juicer Agent则实现自然语言驱动的端到端数据处理,显著简化医疗影像等高精度场景的流程复杂度。框架同步升级记忆管理机制,依托ReMe实现跨会话三维记忆持久化,突破传统智能体交互连续性瓶颈;并与Trinity-RFT集成引入Agentic强化学习,支持智能体在工业质检等场景中持续自主优化。部署层面新增多环境Runtime与VNC图形化沙箱,在保障金融、医疗等高敏感场景安全的同时,提供从本地到云端的无缝衔接。借助AgentScope Studio可视化工具与分层解耦架构,企业可快速搭建监控一体、弹性扩展的多智能体系统,真正实现“开发即部署”。
简评:阿里云此次11月更新,清晰展现出多智能体技术正从“框架构建”迈向“场景赋能”的关键转折。通过开源即用型智能体与全链路工具链的深度融合,AgentScope不仅有效降低了企业应用智能体的技术门槛,更在记忆持久化、强化学习等底层能力上取得实质性突破,为智能体在真实业务环境中实现长期、稳定、进化型服务奠定基础。在行业数字化转型加速的背景下,此类具备安全可控、可视运维、弹性扩展特性的框架,正成为推动多智能体技术从实验室走向产业核心场景的重要推力。未来随着多模态与边缘能力的进一步融入,AgentScope有望在数字员工、工业物联网、智慧金融等领域构建标准化智能协作生态。
三、谷歌提出嵌套学习新范式,攻克AI“灾难性遗忘”难题
11月7日,谷歌研究院发布全新机器学习范式——嵌套学习(Nested Learning),旨在解决大模型持续学习中的核心挑战“灾难性遗忘”。该方法突破传统框架,将模型架构与优化算法统一,把复杂模型视为一系列相互嵌套的优化问题,使每个组件拥有独立的上下文流与更新速率,从而开辟了新的模型设计维度。嵌套学习包含两大核心技术:深度优化器(将优化器本身设计为可学习模块,提升对不完美数据的鲁棒性)与连续体内存系统(构建从短期到长期平滑过渡的记忆光谱,形成分层记忆体系)。基于此,团队开发了概念验证模型Hope——一个基于Titans架构、深度集成CMS的自修改循环网络。实验表明,Hope在语言建模、常识推理及长上下文任务中,性能显著优于Transformer、Mamba2等现有模型,在“大海捞针”测试中展现出卓越的长文本记忆与检索能力,为实现持续学习的AI系统奠定了坚实基础。
简评:谷歌嵌套学习范式绝非渐进式改良,而是对传统机器学习架构的深层重构。其创新性在于从优化问题本质层面破解“灾难性遗忘”,通过模拟人脑记忆巩固机制(借鉴了神经连接重构以形成长期记忆的灵感),实现了短期感知与长期记忆的有机融合。这一架构使AI从“静态知识库”向“动态进化体”跃迁,其意义堪比从“死记硬背”到“活学活用”的认知升级。在军事指挥、动态态势推演等需要持续适应新威胁的领域,此类能不断积累经验而不遗忘核心知识的系统,将成为构建下一代可信赖AI的关键支柱。未来,若能与校准评估框架结合,嵌套学习有望推动实现“能学习、知边界、可信赖”的第三代AI,重塑人机协同新范式。
四、中科院联合团队发布“磐石V1.5”一站式科研平台,AI驱动多学科研究实现关键突破
2025年11月9日,在世界互联网大会乌镇峰会上,中国科学院联合团队正式推出“磐石V1.5”一站式科研平台,实现自7月V1.0版本后的全面能力升级。平台增强“科学基础大模型”与“文献罗盘”核心模块,新增“创新评估”和“智能体工厂”两大科学智能体,构建从推理、写作到评估与工具构建的科研全链路支持体系。科学大模型突破128K上下文工具调用,在波、谱、场等模态理解中实现恒星耀发预测准确率超70%、未知分子结构生成匹配率99.5%,场预测精度最高提升28.6%;文献罗盘调研覆盖度提升59.3%,支持图文表并茂的自动综述生成。该平台已在天体物理、能源材料、力学工程等领域深度应用:联合国家天文台开发恒星参数智能反演工具,提升反演效率与可解释性;与上海硅酸盐所共建材料逆向设计系统,将数月设计周期压缩至30分钟,催化活性提升38%;联合力学所实现高铁气动仿真从数小时至秒级的突破,误差降低42%,全面推动科研从“经验试错”迈向“AI驱动”。
简评:“磐石V1.5”的发布是我国“AI for Science”领域从工具创新迈向体系化赋能的重要里程碑。其以科学大模型为基座、智能体为枢纽的架构,系统解决了科研过程中推理、评估与工具构建的关键瓶颈,更在跨学科场景中实现了研究范式的重构。平台不仅显著提升了科研效率与可复现性,其全面开源更将加速形成科研智能创新生态,为我国在前沿基础研究与重大工程应用中构建起自主、高效的基础设施,推动科学发现从“人工驱动”向“智能涌现”全面转型。
五、商汤发布开源空间智能大模型,多项评测超越GPT-5与Gemini 2.5 Pro
11月10日,商汤科技正式发布并开源SenseNova-SI系列空间智能大模型,涵盖2B与8B两种规格。该模型针对当前大模型在空间结构理解与推理方面的关键短板,实现了重要技术突破。官方评测数据显示,SenseNova-SI-8B在VSI、MMSI、MindCube、ViewSpatial四大空间智能基准测试中取得60.99的平均成绩,不仅显著超越Qwen3-VL-8B(40.16)、BAGEL-7B(35.01)等开源通用多模态模型,以及SpatialMLLM(35.05)、ViLaSR-7B(36.41)等专门空间模型,更以轻量架构实现了对GPT-5(49.68)和Gemini 2.5 Pro(48.81)等顶尖闭源模型的性能反超,展现出质的突破。
简评:商汤此次开源SenseNova-SI系列,不仅体现了其在空间智能这一关键赛道上的技术实力,更以开源策略推动整个行业在具身智能基础能力上的共建。空间理解是实现具身智能体与环境交互的核心瓶颈,此次突破将使机器人、自动驾驶、AR/VR等领域的感知与决策能力获得实质提升。尤为值得关注的是,模型以相对轻量的架构实现了对顶级闭源模型的超越,这为边缘计算与终端设备的实时空间推理提供了新的可能,有望加速智能体在复杂物理环境中的自主行为生成与应用落地。
六、腾讯开源KaLM-Embedding登顶MTEB多语言榜单,120亿参数模型支持千种语言
腾讯微信团队于11月12日通过其开源官方公众号宣布,新一代通用嵌入模型KaLM-Embedding-Gemma3-12B-2511在权威的多语言评测基准MTEB中综合成绩位列全球第一。该模型在涵盖全球1038种语言、共计131项任务的评测体系中,综合得分分别达到72.32(Mean Task)与62.51(Mean Task Type),超越了英伟达、谷歌、阿里等国内外主流开源与闭源竞品。此次发布的模型参数量提升至120亿(12B),是当前MTEB榜单上规模最大的Embedding模型之一。其核心优势体现在五大技术亮点:通过大规模高质量语料训练优化数据质量;采用多阶段对比学习、Embedding蒸馏和参数融合等先进训练策略;实现多语言语义对齐的跨语言能力;支持从64到3840等多种向量维度的嵌套选择;以及显著增强的模型表示与泛化性能。该模型已开源并采用MIT许可证,支持商业用途,模型获取与技术论文可通过Hugging Face和arXiv平台访问。
简评:腾讯KaLM-Embedding此次登顶MTEB多语言榜单,不仅展现了其在嵌入模型技术上的突破性进展,更标志着我国在多语言AI基础模型领域已具备与国际顶尖厂商直接竞争的实力。其支持1038种语言的广泛覆盖,有效解决了传统大模型在低资源语言处理上的瓶颈,为全球数字化公平发展提供了技术基础。尤为关键的是,该模型通过高质量的语义向量表示,能够在RAG架构中精准检索信息、抑制“幻觉”,这将显著提升智能客服、跨语言搜索、多模态交互等实际应用的可靠性与准确性。开源免费商用的策略,将进一步加速技术生态共建与产业落地,推动我国在全球化AI竞争中的话语权提升。
七、OpenAI发布GPT-5.1:主打高情商对话,自适应推理重塑AI交互体验
11月12日,OpenAI正式推出GPT-5系列的首个重大升级版本GPT-5.1,该版本彻底摒弃了传统的“刷榜”式性能宣传,转而聚焦于对话体验的全面提升与情感价值的深度挖掘。此次升级核心包含两大专用模型:GPT-5.1 Instant作为默认模型,通过首次引入的“自适应推理”技术,能智能判断问题难度并自主调整思考深度,在数学(AIME 2025)与编程(Codeforces)等专业评估中展现出更高准确性与响应速度,同时其默认语气变得更温暖健谈,指令遵循能力显著增强;GPT-5.1 Thinking作为高级推理模型,则实现了“简单任务提速两倍、复杂任务思考更持久”的突破,通过减少专业术语、增加通俗比喻与背景说明,使复杂技术概念的阐释更清晰易懂。尤为关键的是,OpenAI为模型注入了八种可灵活选择的对话人格(如专业、坦诚、古灵精怪等),并支持通过滑杆精确调控回复的简洁度、热情度与表情符号使用频率,使ChatGPT从标准化工具蜕变为可高度定制化的交流伙伴。该升级已从11月12日起逐步向付费用户推送,并将在未来覆盖免费用户,同时OpenAI为用户提供为期三个月的GPT-5模型过渡期,确保平滑迁移。
简评:OpenAI此次对GPT-5.1的升级,标志着AI发展范式从纯粹追求“智商”跃迁转向“智商与情商并重”的战略变革。其突破性意义不仅在于自适应推理技术带来的响应效率与准确度提升,更在于它首次将“情绪价值”作为核心指标深度融入模型架构——通过人格化预设与精细化风格控制,使AI能够适应多样化的社交与情感需求。在客服、教育、心理陪伴等强交互场景中,这种“既聪明又温暖”的特质将极大增强用户信任与依赖感。然而,模型在情感依赖评估中显露的潜在风险,也警示我们需同步加强AI伦理设计,确保技术在“拟人化”进程中始终服务于人类福祉。OpenAI此番“去跑分化”的务实态度,无疑为行业树立了以用户体验为中心的新标杆,推动AI从“工具型智能”向“伙伴型智能”的历史性跨越。
八、百度发布全球首个原生全模态大模型文心5.0,以2.4万亿参数重塑AI交互范式
11月13日,百度在2025百度世界大会上正式发布文心大模型5.0,以2.4万亿参数规模开创全球首个原生全模态大模型。该模型采用原生全模态统一架构,从训练初期即深度融合文本、图像、音频、视频等多模态数据,实现跨模态的统一理解与生成。其技术核心突破在于超稀疏混合专家模型,推理时激活参数比例低于3%,在保持强大能力的同时显著提升计算效率。性能表现上,文心5.0在40余项权威基准测试中与Gemini-2.5-Pro、GPT-5-High等国际顶尖模型持平,其预览版ERNIE-5.0-Preview-1022更在LMArena文本能力榜位列全球第二、国内第一。目前,文心大模型5.0 Preview已同步上线文心App,并通过百度千帆大模型平台向开发者开放API服务。
简评:文心5.0的发布标志着大模型技术从“多模态拼接”迈向“原生全模态”的根本性转变。其超稀疏MoE架构在2.4万亿参数规模下实现低于3%的激活率,成功破解了超大模型推理成本高的产业落地难题。百度通过“模型-平台-应用”的闭环布局,将技术优势快速转化为产业能力:千帆平台降低开发门槛,文心App加速用户体验迭代,这种技术赋能与生态开放的双轮驱动,为中国在下一代AI架构竞争中构建了核心壁垒。在多模态成为大模型竞争焦点的背景下,文心5.0的原生全模态能力不仅为智能客服、内容创作、工业设计等领域带来全新可能,更在全球AI格局中为中国赢得了关键话语权。
九、Grok 4.1实现思维与情感双重突破,以强化学习重构对话AI可信度
11月18日,xAI正式发布Grok 4.1模型,在对话智能的情感理解、事实可靠性与协作体验上取得显著突破。该版本通过强化学习基础设施的规模级扩展——训练量较Grok 4提升一个数量级,并创新性地采用前沿推理模型作为奖励模型,实现了响应质量的自主评估与持续优化。技术突破主要体现在三个维度:情感对齐能力在EQ-Bench3测试中以1586 Elo刷新纪录;幻觉率显著降低,非推理模式从12.09%降至4.22%,事实性评分从9.89%优化至2.97%;双模式架构实现智能与效率平衡,非推理模式输出标记压缩至850个,思考模式则在LMArena榜单登顶。用户实测数据显示,Grok 4.1获得64.78%的偏好率,创意写作能力较前代跃升近600分,技术改进直接转化为用户体验提升。
简评:Grok 4.1的升级代表对话AI领域的重要范式转变,通过强化学习的深度应用实现了“智商”与“情商”的协同进化。其以推理模型作为奖励模型的创新机制,突破了传统RLHF依赖人工标注的局限,在保持模型敏锐智能的同时大幅降低幻觉率,为AI在医疗、金融、法律等高风险领域的应用扫除了可信度障碍。双模式架构的设计平衡了专业用户的深度推理需求与大众用户的即时交互期待,展现出卓越的技术普适性。这一突破标志着AI竞争正从单纯的性能指标转向“可靠性-共情力-实用性”三位一体的综合能力建设,为下一代对话系统的发展树立了新标杆。
十、谷歌发布Gemini 3大模型,多项基准测试超越GPT-5.1与Claude 4.5
11月19日,谷歌正式推出Gemini 3系列大模型,首发的Gemini 3 Pro在多项权威基准测试中实现了对GPT-5.1和Claude Sonnet 4.5的全面超越。该模型以1501的Elo评分登顶LMArena全球排行榜,在博士级推理测试“人类终极考试”中达到37.5%的准确率(无工具辅助),并在GPQA Diamond基准取得91.9%的高分。其技术架构核心突破在于原生多模态理解与最先进的推理能力,能够深度感知创意线索并解析复杂问题的交织层次。同步推出的Gemini 3 Deep Think模式进一步将推理能力提升至新高度,在ARC-AGI测试中借助代码执行达到45.1%的突破性成绩。谷歌首次在发布当日即将模型集成至搜索AI模式、Gemini应用及AI Studio等全栈产品,覆盖超20亿搜索用户与6.5亿应用月活用户,并推出Antigravity智能体开发平台,通过Gemini 3驱动的端到端任务规划与代码验证能力,重塑智能体编程范式。
简评:Gemini 3的发布标志着大模型竞争从“基准竞赛”迈向“生态整合”的新阶段。其突破性不仅体现在1501 Elo分与多模态基准的全面领先,更在于首次实现发布当日覆盖数十亿用户的系统级部署能力。这种从TPU算力底层到搜索、Workspace等产品顶层的全栈控制,构建了其他厂商难以复制的生态护城河。尤其值得注意的是,模型在保持顶尖推理能力的同时,通过生成式UI开创了动态交互体验新范式,使AI从响应工具转变为能自主规划、执行复杂任务的行动伙伴。在OpenAI与Anthropic聚焦独立产品迭代的背景下,谷歌凭借产品矩阵深度植入策略,将AI能力转化为用户日常工作流的原生组成部分,这或将重塑行业竞争格局,推动通用人工智能从技术突破迈向规模化应用临界点。
十一、OpenAI发布GPT-5.1-Codex-Max编程模型,持久化编码能力实现突破
11月19日,OpenAI正式推出GPT-5.1-Codex-Max智能体编程模型,该模型凭借其创新的“压缩”技术架构,能够处理跨越数百万token的复杂任务,并在内部测试中成功完成持续超过24小时的代码重构与调试。性能表现上,其在SWE-Bench Verified测试中获得77.9%的准确率,以约1.7个百分点的优势超越谷歌Gemini 3 Pro;在TerminalBench 2.0测试中达到58.1%的准确率,领先Gemini 3 Pro约4个百分点。效率方面,模型在保持质量的同时,使用比前代减少约30%的思考令牌,且执行速度提升27-42%。该模型现已作为默认模型集成至Codex CLI、IDE扩展等开发环境,并通过沙盒安全机制保障代码执行安全性。
简评:GPT-5.1-Codex-Max的发布标志着AI编程正式进入“持久化任务”新阶段。其突破性不仅体现在基准测试中对Gemini 3 Pro的全面超越,更在于通过压缩机制首次实现了24小时级连续编码能力,这将彻底改变传统人机协作的边界。尤为关键的是,模型在提升能力的同时实现了效率优化——减少30%思考令牌与提升逾四成速度,使高端编程智能体的实用化成本显著降低。尽管当前仅通过专用环境提供服务,但其展现出的长远推理能力,已为下一代AI编程助手设定了技术标杆。
十二、Meta发布SAM 3视觉模型:实现“听懂人话”的开放词汇分割
11月19日,Meta正式推出第三代“分割一切”模型Segment Anything Model(SAM 3)及其3D重建版本SAM 3D,核心突破在于引入了可提示概念分割(PCS) 能力,使模型能通过文本描述或图像示例,在无需固定标签集的情况下精准识别、分割并追踪图像和视频中的任意对象。技术架构上,SAM 3通过双路径设计(检测器与跟踪器)和歧义处理模块,解决了复杂概念分割中的模糊性问题;其创新的人机协作数据引擎将标注效率提升最高5倍,构建了包含400万独特概念的超大规模训练集。性能方面,模型在SA-Co基准测试中较现有系统实现性能翻倍,在LVIS零样本分割任务中准确率提升至47.0,并在H200 GPU上以30毫秒/帧的速度处理含上百物体的图像。同步发布的SAM 3D支持从单张图像生成高精度3D模型,目前已集成至Facebook Marketplace的“房间预览”功能,并将在Instagram Edits和Meta AI中落地。
简评:SAM 3的发布标志着视觉AI从“基于固定标签的感知”迈向“开放词汇的语义理解”,其PCS能力不仅解决了传统模型对复杂描述的理解瓶颈,更通过多模态提示实现了“所思即所分”的直觉交互。这一突破背后,人机协同的数据引擎与解耦式架构设计(识别与定位分离)展现了Meta在基础模型研发上的系统工程优势。短期来看,SAM 3与SAM 3D将重塑内容创作、电商、AR/VR等领域的交互范式;长期而言,其开放词汇和零样本泛化能力为机器人、科学发现等高频歧义场景提供了可信感知基座。然而,模型在专业领域术语上的局限仍提示我们:视觉AI的“通用化”之路需持续攻克领域迁移与效率平衡的挑战。
十三、小米发布跨域具身大模型MiMo-Embodied,实现自动驾驶与机器人智能统一建模
11月21日,小米集团正式发布并全面开源其具身大模型MiMo-Embodied,该模型作为业界首个成功打通自动驾驶与具身智能的跨域基座模型,实现了室内机器人智能与室外驾驶智能的统一建模。其技术架构围绕三大核心突破展开:跨域能力覆盖,同步支持具身智能的可供性推理、任务规划、空间理解三大任务与自动驾驶的环境感知、状态预测、驾驶规划三大任务;双向协同赋能,验证了室内交互能力与道路决策能力之间的知识转移协同效应;全链优化可靠,采用“具身/自驾能力学习→CoT推理增强→RL精细强化”的多阶段训练策略。在涵盖感知、决策与规划的29项核心基准测试中,模型全面超越现有开源、闭源及专用模型:在具身智能领域17个基准测试中取得SOTA成绩,在自动驾驶领域12个基准测试中实现全链路性能突破,并在通用视觉语言任务中展现出显著泛化能力。模型与代码已全面开源,可通过GitHub等平台获取。
简评:MiMo-Embodied的发布标志着具身智能研究从“垂直领域专用”迈向“跨域能力协同”的关键转折。其创新性不仅在于统一了自动驾驶与机器人智能的模型架构,更通过双向知识迁移机制,为通用具身智能提供了可扩展的技术路径。这种跨域协同范式将加速家庭机器人、智能驾驶等场景的能力互通,推动智能体从“单域专家”向“全域通才”演进。尤其值得关注的是,小米通过全面开源策略,将助力产业界共同攻克跨场景推理、动态环境适应等核心挑战,为我国在具身智能基础设施领域构建起重要的技术生态壁垒。
十四、摩尔线程URPO框架入选AAAI 2026,统一奖励与策略优化革新大模型对齐范式
摩尔线程近日宣布,其提出的URPO(统一奖励与策略优化)框架研究论文已被人工智能顶级会议AAAI 2026正式收录。该框架创新性地将传统大模型训练中割裂的“指令遵循”与“奖励评判”两大角色融合于单一模型,通过三大核心技术机制实现突破:数据格式统一将异构的偏好、推理和指令数据重构为标准训练信号;自我奖励循环使模型能自主调用评判功能对候选回答评分;协同进化机制让生成与评判能力在混合训练中相互促进。实验结果显示,基于Qwen2.5-7B模型应用URPO后,在AlpacaEval指令跟随榜单得分从42.24提升至44.84,综合推理测试平均分从32.66提升至35.66。更值得注意的是,模型内部自然涌现的评判能力在RewardBench评测中获得85.15分,超越专用奖励模型的83.55分。目前该框架已在摩尔线程自研计算卡上稳定运行,并与VERL等主流强化学习框架深度适配。
简评:URPO框架入选AAAI 2026标志着我国在大模型对齐技术领域实现重要突破。其“选手-裁判”一体化设计直击传统训练流程复杂、资源消耗大的痛点,通过内生的自我奖励与协同进化机制,实现了“训练即评测”的范式革新。这种资源高效的技术路径不仅为大模型对齐提供了更优解决方案,更与摩尔线程构建全栈AI产品矩阵的战略高度契合,为在国产算力基础设施上高效生产先进模型提供了关键算法支撑。随着多模态成为下一代大模型竞争焦点,该框架向多模态领域的扩展将进一步提升AI在复杂动态环境中的感知与决策能力,为自动驾驶、智能决策等高价值场景注入新动能。
十五、伯克利联合MIT、斯坦福推出StreamDiffusionV2,140亿参数模型实现58FPS实时视频生成
加州大学伯克利分校联合MIT、斯坦福的研究团队发布StreamDiffusionV2流式视频生成系统,首次在严格的服务等级目标约束下实现动态交互式视频的实时生成。该系统通过四大创新技术突破实时视频生成瓶颈:SLO感知批处理调度器动态调整批次大小,将首帧时间压缩至0.5秒内;自适应Sink Token与RoPE刷新机制保障数小时直播的视觉一致性;运动感知噪声控制器依据帧间运动强度自适应调节去噪路径;可扩展多流水线编排方案在4卡H100上实现近线性加速。最终,140亿参数模型达到58.28 FPS,13亿参数模型达64.52 FPS,在CLIP分数与Warp Error等指标上超越基线,为直播、元宇宙等场景提供完整的系统级解决方案。
简评:StreamDiffusionV2的发布标志着视频生成技术正式从“离线渲染”迈入“实时流式”新时代。其突破性不仅在于实现58FPS的高帧率生成,更在于将服务等级目标深度融入视频扩散模型调度体系,从根本上解决了强实时场景的落地障碍。运动感知噪声控制与长时序稳定性保障的双重创新,有效攻克了动态场景质量退化与持续生成漂移的行业难题,使AI视频生成首次具备替代传统视频生产的潜力。作为开源社区首个可部署的实时视频生成基座,该框架与谷歌Veo、OpenAI Sora2等闭源模型形成有力互补,将加速虚拟主播、实时特效、工业仿真等领域的创新迭代,推动交互式媒体生态向更高层次的实时化与个性化发展。
十六、首尔国立大学提出视觉令牌不确定性方法,从源头抑制多模态模型幻觉
首尔国立大学研究团队在《On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models》论文中,开创性地从视觉令牌不确定性角度揭示了多模态大模型物体幻觉的产生机制,并提出了一种仅需修改视觉编码器的即插即用解决方案。研究发现,视觉编码器产生的令牌其知识不确定性与物体幻觉频率存在明确正相关关系,即模型对图像区域越不确定,后续语言模型越容易产生该区域的幻觉物体。基于此发现,团队开发了两阶段抑制策略:首先通过在视觉编码器早期层注入微小对抗扰动,高效识别高不确定性令牌;随后在中间层自注意力机制中,依据不确定性图谱生成二元掩码,直接屏蔽不可靠视觉信号的传播。该方法在多项基准测试中显著降低了幻觉率,其最大优势在于完全无需改动语言模型,仅在视觉编码器内部完成干预,具备优异的易用性与兼容性。
简评:这项研究为治理多模态大模型幻觉问题提供了全新的“源头治理”思路。通过将问题归因从传统的语言先验过强转向视觉信号质量本身,研究团队开辟了更为根本的解决路径。其中对抗扰动代理不确定性的设计巧妙平衡了计算效率与识别精度,而注意力掩码机制则精准切断了错误信息的传播链条。这种轻量级的干预方式特别适合对现有模型进行快速升级,在自动驾驶、医疗影像分析等高风险领域具有重要应用价值。随着多模态模型在各行业的深入应用,这种能够实时自省视觉不确定性的机制,将为构建可信赖的人机协同系统提供关键保障,推动多模态技术从“可用”向“可靠”迈进。
十七、达摩院联合浙大、港理工推出PixelRefer,突破多模态模型像素级理解瓶颈
达摩院联合浙江大学、香港理工大学发布统一时空像素级理解框架PixelRefer,成功突破当前多模态大模型在细粒度视觉理解中的技术瓶颈。该框架通过三大核心创新实现技术突破:创新性双流架构同时支持Vision-Object Framework与Object-only Framework,兼顾全局语境与细粒度推理;尺度自适应物体编码器(SAOT)动态调整不同尺寸目标的特征尺度,精准平衡微小物体与巨大目标的特征表示;物体中心注入模块(OCI)采用分层注意力机制,实现局部细节与全局语义的渐进式融合。为支撑模型训练,团队构建了包含220万样本的PixelRefer-2.2M数据集,涵盖基础物体感知与视觉指令微调两大模块。实验结果表明,PixelRefer在多项像素级细粒度理解任务中均取得领先性能,同时在推理效率与资源消耗上显著优于现有方案。
简评:PixelRefer的推出标志着多模态大模型从“场景识别”向“像素理解”的重要演进。其技术价值不仅体现在双流架构的灵活设计与尺度自适应机制的精准调控,更在于成功突破了传统多模态模型在细粒度理解上的性能瓶颈。这一突破为自动驾驶、工业质检、医疗影像等需要像素级精度的领域提供了可靠的技术基础,使AI视觉系统能够实现从“看到”到“看清”的关键跨越。与当前主流的多模态模型相比,PixelRefer在保持通用性的同时实现了专项突破,这种“通用能力+专项精度”的技术路线有望引领多模态模型发展的新方向,为构建下一代可信赖的视觉感知系统奠定坚实基础。
大模型进展专栏由中国指挥与控制学会主办,大模型与决策智能专委会承办。大模型进展专栏联系方式:lmdi123@163.com 欢迎投稿。
编辑:张钊,梁星星,邢天,闫云龙,江禄民
炒股配资提示:文章来自网络,不代表本站观点。