



时间:2025-06-04 关注公众号 来源:网络
在未来的数字纪元,智源研究院的年度评测揭开了一场前所未有的智能风暴。当多模态模型如幽灵般潜入人类认知的边缘,一场跨越语言、视觉与想象边界的较量悄然上演。字节跳动的Doubao-pro,如同智慧的猎手,在文字的密林与图像的海洋中游刃有余,与百度ERNIE4.0Turbo狭路相逢,两者在思维的辩论场中激战,争夺意识领域的王冠。
在这一边,OpenAIGPT-4o携带着图文理解的新曙光,与字节跳动的Doubao-Pro-Vision并肩,挑战着视觉语言的极限,它们在图文交织的世界里,探寻着知识的长尾,试图解开复杂数据的密码。
而腾讯的HunyuanImage,仿佛梦境的织匠,将文字化为栩栩如生的画面,但在追求完美的旅途中,人物与现实的界限模糊,挑战着创造与真实的边界。快手的可灵1.5,则是时间的画家,以视频为画布,描绘出动态世界的奇幻,尽管物理定律的枷锁尚未完全挣脱。
这不仅是技术的竞技场,更是想象力的盛宴。在这场智能进化的大戏中,每个模型都是故事的主角,它们在现实与虚构之间编织着未来,引领我们踏入一个既熟悉又陌生的全新时代。在这个时代,机器不只是工具,它们成为故事的叙述者,共同撰写着关于创造力与智能的不朽篇章。
智源研究院发布2024年下半年大模型评测结果,评估涵盖100余个开源及闭源模型。此次评测在5月份评估基础上,扩展了任务类型,新增数据处理、高级编程、工具调用及金融量化交易场景评估等;并首次采用模型辩论方式进行对比评估。
评测结果显示,下半年大模型发展更注重综合能力提升及实际应用。多模态模型发展迅速,而语言模型发展相对放缓。开源生态中,除原有贡献者外,也涌现出新的参与者。
综合榜单:多模态模型表现抢眼
评测涵盖文本、语音、图像、视频理解与生成等多种模态。语言模型方面,虽然在一般中文场景下能力趋于饱和,但在复杂场景中,国内头部模型与国际一流水平仍存在差距。字节跳动Doubao-pro-32k-preview和百度ERNIE4.0Turbo在主观评测中表现领先;OpenAIo1-mini-2024-09-12和GoogleGemini-1.5-pro-latest在客观评测中位居前列。
视觉语言多模态模型方面,优秀开源模型在图文理解任务上正逐渐缩小与闭源模型的差距,但长尾视觉知识、文字识别和复杂图文数据分析能力仍有提升空间。OpenAIGPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028表现突出。
文生图模型方面,头部模型已具备中文文字生成能力,但复杂场景下人物变形问题仍存在。腾讯HunyuanImage排名第一。
文生视频模型方面,画质和动态效果提升显著,但动作变形、物理规律理解不足等问题依然存在。快手可灵1.5(高品质)表现领先。
语音语言模型方面,受益于文本大模型的进步,能力大幅提升,但与专业模型仍存在差距。阿里巴巴Qwen2-Audio表现最佳。
专项评测:K12学科测试及模型辩论
K12学科测试显示,模型综合得分较半年前提升12.86%,但在部分学科上仍与人类学生存在差距。部分模型在英语和历史科目中表现优于人类平均水平。
模型辩论平台FlagEvalDebate的评测结果显示,AnthropicClaude-3-5-sonnet-20241022、零一万物Yi-Lighting、OpenAIo1-preview-2024-09-12在逻辑推理、观点理解和语言表达方面表现出色。
金融量化交易评测显示,深度求索Deepseek-chat、OpenAIGPT-4o-2024-08-06、GoogleGemini-1.5-pro-latest在生成量化交易策略代码方面表现领先。
FlagEval评测平台持续迭代
FlagEval平台已覆盖全球800多个开闭源模型,包含20多种任务和90多个数据集。本次评测更新了98%的题目,并提升了难度,以应对数据集泄露和饱和度问题。
智源研究院将继续致力于打造科学、权威、公正、开放的大模型评测体系,为大模型技术生态发展提供持续的洞察。2025年,FlagEval将进一步探索动态评测和多任务能力评估体系。
以上就是智源发布FlagEval「百模」评测结果,丈量模型生态变局的详细内容,更多请关注其它相关文章!