MiniMax发长文回应“模型无法说出马嘉祺”

休闲 2026-05-11 21:28:43 41357

5月9日,长文MiniMax官微发长文回应M2系列模型无法说出马嘉祺一事,模型马嘉提供了对“嘉祺识别”问题的无法完整排查过程和技术思考。

MiniMax表示,说出其从分词器版本对齐、长文embedding统计分布、模型马嘉语义近邻检索、无法预训练与后训练模型的说出few-shot对比实验、后训练数据频次统计以及对全词表lm_head变化幅度的长文排序扫描等多个维度进行了排查。最终定位到的模型马嘉原因是:“嘉祺”在分词器中被合并为一个独立token,但该token在后训练数据中出现频次极低,无法导致模型在后训练中逐渐遗忘了对该token的说出生成能力。

修复方案方面,长文MiniMax构造了一份覆盖全词表的模型马嘉合成数据,核心思想是无法:通过一个简单的复读任务,为全词表建立一个生成频率的“下限保障”,防止任何token因为完全缺失而退化。此外,MiniMax表示,将token覆盖度作为后训练数据质量的一项常规监控指标,可以在早期发现潜在的稀疏token退化风险,避免类似问题在线上复现。

本文地址:http://www.szcitystore.com/html/90a52299387.html
版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

热门标签

全站热门

腾讯云:QClaw上线“文件空间”功能

俄乌互相指责对方违反停火安排 乌方称已向俄方提交1000名战俘交换名单

以社科之光点亮城市:杭州市2026年哲学社会科学普及周在钱塘启幕

太空货运体系将更新!“国家队+商业队”实现全谱系运力覆盖

【科普】防灾减灾宣传周,来了!

太空货运体系将更新!“国家队+商业队”实现全谱系运力覆盖

北京合力惠东投资中心因合伙人签名造假被罚,穿透显示俞敏洪为第一大出资方 | 大鱼财经

伊朗拒绝美国停战方案 特朗普称“完全不可接受”

友情链接

琼ICP备2025056567号-24