重磅:LFM2.5-1.2B-Thinking发布 1GB内存即可实现端侧高效推理
近日,Liquid AI正式对外发布全端侧运行推理模型LFM2.5-1.2B-Thinking。该模型内存占用可控制在900MB以内,在同量级模型中兼具最快推理速度与最优效果表现,成功将昔日需要数据中心支撑的推理任务,落地为便携设备的离线运行能力,为端侧AI的普及与落地注入强劲动力。
生态伙伴扩容 多终端部署场景解锁
伴随LFM2.5-1.2B-Thinking的发布,Liquid AI的生态布局也迎来重要升级。高通技术公司、Ollama、FastFlowLM、Cactus Compute四家新伙伴加入首发生态,与现有合作伙伴AMD、Nexa AI携手,共同拓展模型的落地边界。
此次生态扩容,让LFM2.5-1.2B-Thinking能够在汽车、智能手机、笔记本电脑、物联网设备及嵌入式系统等多类终端实现高效部署,为不同场景下的开发者提供了丰富的落地选择。目前,该模型已在Hugging Face、LEAP平台及Liquid AI在线体验区Playground正式上线,开发者可直接获取并进行二次开发。
核心性能亮眼 三大能力实现跨越式提升
作为LFM2.5模型家族的全新成员,LFM2.5-1.2B-Thinking是一款参数量达12亿的推理专用模型,采用"先生成推理轨迹、再输出最终答案"的独特模式,能够对问题进行系统化拆解分析,同时充分发挥LFM系列模型的推理速度优势,实现高效与高质的兼顾。
各模型核心测评指标对比
| 模型 | GPQA Diamond | MATH-500 | Multi-IF | BFCLv3 |
|---|---|---|---|---|
| LFM2.5-1.2B-Thinking* | 37.86(±0.83) | 87.96(±0.72) | 69.33(±0.09) | 56.97(±0.30) |
| Qwen3-1.7B(推理模式)* | 36.93(±2.07) | 81.92(±2.99) | 60.33(±0.02) | 55.41(±0.04) |
| LFM2.5-1.2B-Instruct | 38.89 | 63.20 | 60.98 | 49.12 |
数据显示,与同家族LFM2.5-1.2B-Instruct模型相比,LFM2.5-1.2B-Thinking在三大核心能力上实现跨越式提升:数学推理能力(MATH-500指标从63提升至88)、指令遵循能力(Multi-IF指标从61提升至69)、工具调用能力(BFCLv3指标从49提升至57)。值得关注的是,尽管该模型参数量比Qwen3-1.7B少40%,但在绝大多数推理测评中效果持平甚至超越前者,且能以更少的输出tokens实现整体性能提升。
在实际推理环节,该模型的优势进一步扩大,不仅在速度和内存效率上优于Qwen3-1.7B,即便面对Granite-4.0-H-1B这类混合架构模型,也依然保持领先。尤其在智能体任务、数学运算、程序开发等高难度推理场景中,其生成的推理轨迹能发挥关键作用,而聊天交互、创意写作场景则推荐使用同家族的LFM2.5-1.2B-Instruct模型。
创新训练方案 攻克"厄运循环"行业难题
打造高性能轻量推理模型,既要弥补知识容量局限,又要适配低延迟端侧部署,Liquid AI通过创新训练方案实现了这一目标。
此前实验证实,中期训练融入推理轨迹能让模型习得"先推理、后作答"的思维模式,而基于合成推理轨迹的有监督微调,进一步稳定了思维链生成。针对推理模型常见的"厄运循环"(陷入文本重复无法得出结论)问题,团队采用了两步解决方案:在偏好对齐阶段针对性筛选优选与弃选回复,在强化学习偏好对齐阶段通过n-gram重复惩罚抑制循环行为。
| 训练阶段 | 厄运循环发生率 |
|---|---|
| 中期训练 | 15.74% |
| 有监督微调(SFT) | 14.98% |
| 直接偏好优化(DPO) | 4.32% |
| 强化学习偏好对齐(RLVR) | 0.36% |
测试结果显示,该方案将模型厄运循环发生率从中期训练的15.74%大幅降至0.36%。此外,团队采用的课程式强化学习、并行训练架构,不仅解决了传统单模型多领域训练的能力干扰问题,还更适合小型研发团队快速迭代,为轻量模型的高效训练提供了可复制的参考路径。
全平台适配 长上下文推理表现优异
为方便开发者上手,LFM2.5系列模型支持通过TRL和Unsloth工具进行微调,而LFM2.5-1.2B-Thinking发布之初就已适配llama.cpp、MLX、vLLM等主流推理框架,支持苹果、AMD、高通、英伟达硬件的CPU和GPU加速。
高通技术公司产品管理副总裁Vinesh Sukumar对此表示:"高通很荣幸成为Liquid AI开源权重模型LFM2.5-1.2B-Thinking的首发合作伙伴。借助Nexa AI为高通NPU打造的优化方案,开发者可在骁龙平台设备上部署更智能、更快速的端侧AI模型,在边缘端实现性能、隐私性与可靠性的兼顾。"
在长上下文推理场景中,LFM2.5-1.2B-Thinking的表现同样亮眼。在搭载FastFlowLM框架的AMD锐龙NPU上,该模型在16K上下文长度下的解码吞吐量稳定在约52 tok/s,即便在32K满上下文长度下,仍可达约46 tok/s,展现出出色的可扩展性。
下载量破600万 端侧AI未来已至
截至目前,LFM2系列模型在Hugging Face平台的下载量已突破600万次。LFM2.5系列模型的发布,践行了Liquid AI"让AI在任意终端落地"的愿景,其开源权重、原生高效、全品类覆盖的三大核心特性,为开发者提供了充足的创新空间。
业内人士认为,LFM2.5-1.2B-Thinking的发布,不仅刷新了轻量级端侧推理模型的性能天花板,也为端侧AI的规模化落地提供了技术支撑。随着生态的不断完善,未来有望在更多民生、工业场景中看到该系列模型的应用身影。
如需企业级部署方案或定制化解决方案,可联系Liquid AI销售团队;技术细节可查阅官方发布的技术报告。
相关文章
- 重磅:LFM2.5-1.2B-Thinking发布 1GB内存即可实现端侧高效推理
- MyBatis-Plus升级踩坑记录:一个依赖缺失引发的“惨案”
- spring+netty实现一个最小可运行的im server
- windows修改ollama程序和模型保存位置
- UE5中使用蓝图实现对象池功能
- UE5开发2D/3D混合平台跳跃游戏优化操作体验
- UE5敌人直接放置场景ok,代码生成不执行AI
- UE5中开发HD-2D游戏的优化设置与2D角色导入技巧
- nginxSpringboot项目常见配置
- 在MacOS上部署ComfyUI的指南
- 解决UE5开发Topdown2D动作游戏的旋转问题
- UE5开发2D游戏设置排序的步骤.
- 大幅提升FPS!Unreal Engine 5 最佳 2D 设置
- Aseprite在线编译教程
- 探索Nexa AI:开源边缘智能的新纪元
- Springboot项目允许根目录txt文件被访问
- lnmp一键安装包多php环境安装
- Python虚拟环境整合包制作:一键打包与运行指南
- aws云服务器使用root登录
- nginx配置允许跨域