智源发布FlagEval「百模」评测结果，丈量模型生态变局

在未来的数字纪元，智源研究院的年度评测揭开了一场前所未有的智能风暴。当多模态模型如幽灵般潜入人类认知的边缘，一场跨越语言、视觉与想象边界的较量悄然上演。字节跳动的Doubao-pro，如同智慧的猎手，在文字的密林与图像的海洋中游刃有余，与百度ERNIE4.0Turbo狭路相逢，两者在思维的辩论场中激战，争夺意识领域的王冠。

在这一边，OpenAIGPT-4o携带着图文理解的新曙光，与字节跳动的Doubao-Pro-Vision并肩，挑战着视觉语言的极限，它们在图文交织的世界里，探寻着知识的长尾，试图解开复杂数据的密码。

而腾讯的HunyuanImage，仿佛梦境的织匠，将文字化为栩栩如生的画面，但在追求完美的旅途中，人物与现实的界限模糊，挑战着创造与真实的边界。快手的可灵1.5，则是时间的画家，以视频为画布，描绘出动态世界的奇幻，尽管物理定律的枷锁尚未完全挣脱。

这不仅是技术的竞技场，更是想象力的盛宴。在这场智能进化的大戏中，每个模型都是故事的主角，它们在现实与虚构之间编织着未来，引领我们踏入一个既熟悉又陌生的全新时代。在这个时代，机器不只是工具，它们成为故事的叙述者，共同撰写着关于创造力与智能的不朽篇章。

智源研究院发布2024年下半年大模型评测结果，评估涵盖100余个开源及闭源模型。此次评测在5月份评估基础上，扩展了任务类型，新增数据处理、高级编程、工具调用及金融量化交易场景评估等；并首次采用模型辩论方式进行对比评估。　　

评测结果显示，下半年大模型发展更注重综合能力提升及实际应用。多模态模型发展迅速，而语言模型发展相对放缓。开源生态中，除原有贡献者外，也涌现出新的参与者。　　

综合榜单：多模态模型表现抢眼　　

评测涵盖文本、语音、图像、视频理解与生成等多种模态。语言模型方面，虽然在一般中文场景下能力趋于饱和，但在复杂场景中，国内头部模型与国际一流水平仍存在差距。字节跳动Doubao-pro-32k-preview和百度ERNIE4.0Turbo在主观评测中表现领先；OpenAIo1-mini-2024-09-12和GoogleGemini-1.5-pro-latest在客观评测中位居前列。