您的位置：首页>技术文章>正文

技术文章

重磅：LFM2.5-1.2B-Thinking发布 1GB内存即可实现端侧高效推理

开发学院2026-01-27 18:13:25

近日，Liquid AI正式对外发布全端侧运行推理模型LFM2.5-1.2B-Thinking。该模型内存占用可控制在900MB以内，在同量级模型中兼具最快推理速度与最优效果表现，成功将昔日需要数据中心支撑的推理任务，落地为便携设备的离线运行能力，为端侧AI的普及与落地注入强劲动力。

生态伙伴扩容多终端部署场景解锁

伴随LFM2.5-1.2B-Thinking的发布，Liquid AI的生态布局也迎来重要升级。高通技术公司、Ollama、FastFlowLM、Cactus Compute四家新伙伴加入首发生态，与现有合作伙伴AMD、Nexa AI携手，共同拓展模型的落地边界。

此次生态扩容，让LFM2.5-1.2B-Thinking能够在汽车、智能手机、笔记本电脑、物联网设备及嵌入式系统等多类终端实现高效部署，为不同场景下的开发者提供了丰富的落地选择。目前，该模型已在Hugging Face、LEAP平台及Liquid AI在线体验区Playground正式上线，开发者可直接获取并进行二次开发。

核心性能亮眼三大能力实现跨越式提升

作为LFM2.5模型家族的全新成员，LFM2.5-1.2B-Thinking是一款参数量达12亿的推理专用模型，采用"先生成推理轨迹、再输出最终答案"的独特模式，能够对问题进行系统化拆解分析，同时充分发挥LFM系列模型的推理速度优势，实现高效与高质的兼顾。

各模型核心测评指标对比

模型	GPQA Diamond	MATH-500	Multi-IF	BFCLv3
LFM2.5-1.2B-Thinking*	37.86(±0.83)	87.96(±0.72)	69.33(±0.09)	56.97(±0.30)
Qwen3-1.7B（推理模式）*	36.93(±2.07)	81.92(±2.99)	60.33(±0.02)	55.41(±0.04)
LFM2.5-1.2B-Instruct	38.89	63.20	60.98	49.12

数据显示，与同家族LFM2.5-1.2B-Instruct模型相比，LFM2.5-1.2B-Thinking在三大核心能力上实现跨越式提升：数学推理能力（MATH-500指标从63提升至88）、指令遵循能力（Multi-IF指标从61提升至69）、工具调用能力（BFCLv3指标从49提升至57）。值得关注的是，尽管该模型参数量比Qwen3-1.7B少40%，但在绝大多数推理测评中效果持平甚至超越前者，且能以更少的输出tokens实现整体性能提升。

在实际推理环节，该模型的优势进一步扩大，不仅在速度和内存效率上优于Qwen3-1.7B，即便面对Granite-4.0-H-1B这类混合架构模型，也依然保持领先。尤其在智能体任务、数学运算、程序开发等高难度推理场景中，其生成的推理轨迹能发挥关键作用，而聊天交互、创意写作场景则推荐使用同家族的LFM2.5-1.2B-Instruct模型。

创新训练方案攻克"厄运循环"行业难题

打造高性能轻量推理模型，既要弥补知识容量局限，又要适配低延迟端侧部署，Liquid AI通过创新训练方案实现了这一目标。

此前实验证实，中期训练融入推理轨迹能让模型习得"先推理、后作答"的思维模式，而基于合成推理轨迹的有监督微调，进一步稳定了思维链生成。针对推理模型常见的"厄运循环"（陷入文本重复无法得出结论）问题，团队采用了两步解决方案：在偏好对齐阶段针对性筛选优选与弃选回复，在强化学习偏好对齐阶段通过n-gram重复惩罚抑制循环行为。

训练阶段	厄运循环发生率
中期训练	15.74%
有监督微调（SFT）	14.98%
直接偏好优化（DPO）	4.32%
强化学习偏好对齐（RLVR）	0.36%

测试结果显示，该方案将模型厄运循环发生率从中期训练的15.74%大幅降至0.36%。此外，团队采用的课程式强化学习、并行训练架构，不仅解决了传统单模型多领域训练的能力干扰问题，还更适合小型研发团队快速迭代，为轻量模型的高效训练提供了可复制的参考路径。

全平台适配长上下文推理表现优异

为方便开发者上手，LFM2.5系列模型支持通过TRL和Unsloth工具进行微调，而LFM2.5-1.2B-Thinking发布之初就已适配llama.cpp、MLX、vLLM等主流推理框架，支持苹果、AMD、高通、英伟达硬件的CPU和GPU加速。

高通技术公司产品管理副总裁Vinesh Sukumar对此表示："高通很荣幸成为Liquid AI开源权重模型LFM2.5-1.2B-Thinking的首发合作伙伴。借助Nexa AI为高通NPU打造的优化方案，开发者可在骁龙平台设备上部署更智能、更快速的端侧AI模型，在边缘端实现性能、隐私性与可靠性的兼顾。"

在长上下文推理场景中，LFM2.5-1.2B-Thinking的表现同样亮眼。在搭载FastFlowLM框架的AMD锐龙NPU上，该模型在16K上下文长度下的解码吞吐量稳定在约52 tok/s，即便在32K满上下文长度下，仍可达约46 tok/s，展现出出色的可扩展性。

下载量破600万端侧AI未来已至

截至目前，LFM2系列模型在Hugging Face平台的下载量已突破600万次。LFM2.5系列模型的发布，践行了Liquid AI"让AI在任意终端落地"的愿景，其开源权重、原生高效、全品类覆盖的三大核心特性，为开发者提供了充足的创新空间。

业内人士认为，LFM2.5-1.2B-Thinking的发布，不仅刷新了轻量级端侧推理模型的性能天花板，也为端侧AI的规模化落地提供了技术支撑。随着生态的不断完善，未来有望在更多民生、工业场景中看到该系列模型的应用身影。

注：推理类模型的测评结果，为温度系数设为0.6时五次实验的平均分及标准差；指令类模型的测评结果，基于贪心解码方式得出。
如需企业级部署方案或定制化解决方案，可联系Liquid AI销售团队；技术细节可查阅官方发布的技术报告。

开发学院

开发学院

技术文章

重磅：LFM2.5-1.2B-Thinking发布 1GB内存即可实现端侧高效推理

生态伙伴扩容多终端部署场景解锁

核心性能亮眼三大能力实现跨越式提升

各模型核心测评指标对比

创新训练方案攻克"厄运循环"行业难题

全平台适配长上下文推理表现优异

下载量破600万端侧AI未来已至

相关文章

友情链接

技术文章

重磅：LFM2.5-1.2B-Thinking发布 1GB内存即可实现端侧高效推理

生态伙伴扩容 多终端部署场景解锁

核心性能亮眼 三大能力实现跨越式提升

各模型核心测评指标对比

创新训练方案 攻克"厄运循环"行业难题

全平台适配 长上下文推理表现优异

下载量破600万 端侧AI未来已至

相关文章

友情链接

生态伙伴扩容多终端部署场景解锁

核心性能亮眼三大能力实现跨越式提升

创新训练方案攻克"厄运循环"行业难题

全平台适配长上下文推理表现优异

下载量破600万端侧AI未来已至