开发学院

您的位置:首页>技术文章>正文

技术文章

重磅:LFM2.5-1.2B-Thinking发布 1GB内存即可实现端侧高效推理

开发学院2026-01-27 18:13:25
近日,Liquid AI正式对外发布全端侧运行推理模型LFM2.5-1.2B-Thinking。该模型内存占用可控制在900MB以内,在同量级模型中兼具最快推理速度与最优效果表现,成功将昔日需要数据中心支撑的推理任务,落地为便携设备的离线运行能力,为端侧AI的普及与落地注入强劲动力。

近日,Liquid AI正式对外发布全端侧运行推理模型LFM2.5-1.2B-Thinking。该模型内存占用可控制在900MB以内,在同量级模型中兼具最快推理速度与最优效果表现,成功将昔日需要数据中心支撑的推理任务,落地为便携设备的离线运行能力,为端侧AI的普及与落地注入强劲动力。

生态伙伴扩容 多终端部署场景解锁

伴随LFM2.5-1.2B-Thinking的发布,Liquid AI的生态布局也迎来重要升级。高通技术公司、Ollama、FastFlowLM、Cactus Compute四家新伙伴加入首发生态,与现有合作伙伴AMD、Nexa AI携手,共同拓展模型的落地边界。

此次生态扩容,让LFM2.5-1.2B-Thinking能够在汽车、智能手机、笔记本电脑、物联网设备及嵌入式系统等多类终端实现高效部署,为不同场景下的开发者提供了丰富的落地选择。目前,该模型已在Hugging Face、LEAP平台及Liquid AI在线体验区Playground正式上线,开发者可直接获取并进行二次开发。

核心性能亮眼 三大能力实现跨越式提升

作为LFM2.5模型家族的全新成员,LFM2.5-1.2B-Thinking是一款参数量达12亿的推理专用模型,采用"先生成推理轨迹、再输出最终答案"的独特模式,能够对问题进行系统化拆解分析,同时充分发挥LFM系列模型的推理速度优势,实现高效与高质的兼顾。

各模型核心测评指标对比

模型GPQA DiamondMATH-500Multi-IFBFCLv3
LFM2.5-1.2B-Thinking*37.86(±0.83)87.96(±0.72)69.33(±0.09)56.97(±0.30)
Qwen3-1.7B(推理模式)*36.93(±2.07)81.92(±2.99)60.33(±0.02)55.41(±0.04)
LFM2.5-1.2B-Instruct38.8963.2060.9849.12

数据显示,与同家族LFM2.5-1.2B-Instruct模型相比,LFM2.5-1.2B-Thinking在三大核心能力上实现跨越式提升:数学推理能力(MATH-500指标从63提升至88)、指令遵循能力(Multi-IF指标从61提升至69)、工具调用能力(BFCLv3指标从49提升至57)。值得关注的是,尽管该模型参数量比Qwen3-1.7B少40%,但在绝大多数推理测评中效果持平甚至超越前者,且能以更少的输出tokens实现整体性能提升。

在实际推理环节,该模型的优势进一步扩大,不仅在速度和内存效率上优于Qwen3-1.7B,即便面对Granite-4.0-H-1B这类混合架构模型,也依然保持领先。尤其在智能体任务、数学运算、程序开发等高难度推理场景中,其生成的推理轨迹能发挥关键作用,而聊天交互、创意写作场景则推荐使用同家族的LFM2.5-1.2B-Instruct模型。

创新训练方案 攻克"厄运循环"行业难题

打造高性能轻量推理模型,既要弥补知识容量局限,又要适配低延迟端侧部署,Liquid AI通过创新训练方案实现了这一目标。

此前实验证实,中期训练融入推理轨迹能让模型习得"先推理、后作答"的思维模式,而基于合成推理轨迹的有监督微调,进一步稳定了思维链生成。针对推理模型常见的"厄运循环"(陷入文本重复无法得出结论)问题,团队采用了两步解决方案:在偏好对齐阶段针对性筛选优选与弃选回复,在强化学习偏好对齐阶段通过n-gram重复惩罚抑制循环行为。

训练阶段厄运循环发生率
中期训练15.74%
有监督微调(SFT)14.98%
直接偏好优化(DPO)4.32%
强化学习偏好对齐(RLVR)0.36%

测试结果显示,该方案将模型厄运循环发生率从中期训练的15.74%大幅降至0.36%。此外,团队采用的课程式强化学习、并行训练架构,不仅解决了传统单模型多领域训练的能力干扰问题,还更适合小型研发团队快速迭代,为轻量模型的高效训练提供了可复制的参考路径。

全平台适配 长上下文推理表现优异

为方便开发者上手,LFM2.5系列模型支持通过TRL和Unsloth工具进行微调,而LFM2.5-1.2B-Thinking发布之初就已适配llama.cpp、MLX、vLLM等主流推理框架,支持苹果、AMD、高通、英伟达硬件的CPU和GPU加速。

高通技术公司产品管理副总裁Vinesh Sukumar对此表示:"高通很荣幸成为Liquid AI开源权重模型LFM2.5-1.2B-Thinking的首发合作伙伴。借助Nexa AI为高通NPU打造的优化方案,开发者可在骁龙平台设备上部署更智能、更快速的端侧AI模型,在边缘端实现性能、隐私性与可靠性的兼顾。"

在长上下文推理场景中,LFM2.5-1.2B-Thinking的表现同样亮眼。在搭载FastFlowLM框架的AMD锐龙NPU上,该模型在16K上下文长度下的解码吞吐量稳定在约52 tok/s,即便在32K满上下文长度下,仍可达约46 tok/s,展现出出色的可扩展性。

下载量破600万 端侧AI未来已至

截至目前,LFM2系列模型在Hugging Face平台的下载量已突破600万次。LFM2.5系列模型的发布,践行了Liquid AI"让AI在任意终端落地"的愿景,其开源权重、原生高效、全品类覆盖的三大核心特性,为开发者提供了充足的创新空间。

业内人士认为,LFM2.5-1.2B-Thinking的发布,不仅刷新了轻量级端侧推理模型的性能天花板,也为端侧AI的规模化落地提供了技术支撑。随着生态的不断完善,未来有望在更多民生、工业场景中看到该系列模型的应用身影。

注:推理类模型的测评结果,为温度系数设为0.6时五次实验的平均分及标准差;指令类模型的测评结果,基于贪心解码方式得出。
           如需企业级部署方案或定制化解决方案,可联系Liquid AI销售团队;技术细节可查阅官方发布的技术报告。