门头沟企业智子引擎发布开源多模态MoE大模型

随着多模态大模型的快速发展,当前主流多模态大模型具备完成多种任务的能力(图文描述、视觉问答、文字识别、图标理解、目标检测等)。但是,这些不同的多模态任务往往具有完全不同的数据分布,导致在模型训练过程中遇到“多任务冲突”的问题,尤其在模型参数量较小时,这种问题尤为突出。如何才能在有限增加模型参数量以及训练成本的条件下,高效地扩展模型容量,缓解多模态大模型“多任务冲突”问题?

近日,针对这一挑战,来自北京市门头沟区的大模型初创公司智子引擎的研究团队开源了基于MoE架构的多模态大模型Awaker2.5-VL。Awaker2.5-VL通过设置多个专家,扩展了模型在不同任务上的能力,有效地缓解了多模态“多任务冲突”的问题。该模型还对MoE中门控网络的路由策略进行了细致的研究,并设计了一个简单且十分有效的路由策略,提升了模型训练的稳定性。Awaker2.5-VL在MME-Realworld和MME-Realworld-CN都位列榜首,且是目前唯一在该Benchmark上“及格”(超过60分)的模型。考虑到MME-Realworld主要面向自动驾驶、遥感、视频监控等复杂场景,Awaker2.5-VL在MME-Realworld上的出色表现很好地展示它在落地应用中的巨大潜力。目前,Awaker2.5-VL的论文和代码已经公开,后续还会更新更强的版本。

673da8da8f3c2

论文地址: https://arxiv.org/abs/2411.10669

代码仓库: https://github.com/MetabrainAGI/Awaker

2024年,智子引擎已经成功地将Awaker2.5-VL应用于门头沟本地产业,其中有多个复杂的实际场景,包括国家电网、社会治理、服务型机器人等。在即将到来的2025年,智子引擎将继续在门头沟区进行产业深耕,探索Awaker2.5-VL更多的落地应用场景。

来源:智子引擎

本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。:https://www.kj.zqbgyp.com/7419.html

(0)
上一篇 2024年11月19日 下午9:34
下一篇 2024年11月20日 下午11:26

相关推荐