实测|8次反复检查,?美团上线开源并可体验的“重思考”模型

  更新时间:2026-01-16 22:44   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

每个 Thinker 将伌Thinker #7提到‌Thinker #8提到

<p id="48DCMQEF">新京报)贝壳财经讯(记者陈维城[)1月16日,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601现已开源。团队介绍,新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,达到开源模型SOTA(最先进的水平)水平。</p> <p id="48DCMQEG">团队介绍,该模型在工具调用的泛化能力上优势明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务。</p> <p id="48DCMQEH">新京报贝壳财经记者进入美团LongCat实测,选定“深度思考”模式,输入:“2010年冬季是冷冬还是暖冬?”页面显示,“接下来,我将以多种思考方式同时进行深度思考,每个 Thinker 将会独立给出一个回复,最终我会将这些回复整合成一个更全面的结论。”</p> <p class="f_center"><br></p> <p class="f_center"><br></p> <p class="f_center"><br></p> <p id="48DCMQEI">页面显示了8个思考结果分析:2010年冬季应该是指2010年12月至2011年2月,Thinker #7提到“2009年12月至2010年2月”作为2010年冬季,这是错误的。根据国家气候中心的标准,冬季平均气温较常年偏低0.5℃以上才达到冷冬标准。Thinker #3和#8提出了不同观点,认为整体未达冷冬标准。</p> <p class="f_center"><br></p> <p id="48DCMQEJ">最后系统结论为,2010年冬季是一个“前冬暖、隆冬冷”的复合型冬季,在强拉尼娜事件影响下,冷空气活动频繁且强度强,尽管全国平均气温偏低幅度未 strictly 达到0.5℃标准,但综合极端天气事件和区域严寒特征,仍被权威机构判定为冷冬。这一现象体现了全球变暖背景下极端天气事件的复杂性。</p> <p id="48DCMQEK">记者输入“100字概括罗永浩的锤子科技倒闭原因?”系统分析显示,除了字数要求外,Thinker #1提到“内部动荡和战略摇摆”,Thinker #2提到“管理经验缺乏”,Thinker #3提到“融资困难”,Thinker #4强调“供应链”,Thinker #5提到“跨界创业”和“过度投入营销研发”,Thinker #6提到“营销成本失控”,Thinker #7提到“未能规模化盈利”,Thinker #8提到“缺乏商业运营敬畏心”和“依赖情怀”。</p> <p class="f_center"><br></p> <p id="48DCMQEL">系统对比完8个思考后得出结论,“锤子科技倒闭核心是资金链断裂,深层原因为:产品定价过高致销量惨淡,过度重视设计与营销而忽视供应链管理与成本控制;市场竞争激烈,战略摇摆不定;创始人罗永浩的理想主义与商业现实脱节,跨界管理经验不足,最终难以为继。”</p> <p class="f_center"><br></p> <p class="f_center"><br></p> <p id="48DCMQEM">记者注意到,2025年春节前后,各大AI大模型逐步上线“深度思考”功能。目前,各大AI大模型的“深度思考”结果并非完全准确,以至于可能出现答非所问,产生虚幻结果。美团此次新模型支持“重思考”模式,相当于系统8次独立思考,再对结果进行复核。</p> <p id="48DCMQEN">对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。</p> <p id="48DCMQEO">此外,LongCat团队针对性扩展自研强化学习基础设施,在保留原有高效异步训练特性的基础上,实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率;该团队还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞。</p> <p id="48DCMQEP">该团队还表示,现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。</p> <p id="48DCMQEQ">编辑 岳彩周</p> <p id="48DCMQER">校对 穆祥桐</p>

编辑:杜帅