



时间:2025-05-16 关注公众号 来源:网络
在人工智能的浩瀚宇宙中,OpenAI不断探索着效率与效能的完美平衡点。近期,他们骄傲地揭开了Mini-o4的神秘面纱,这是一个精心设计的小型推理模型。Mini-o4,作为OpenAI家族的最新成员,虽身形精简,却蕴含着巨大的智慧潜能。它旨在为资源有限的环境提供高效解决方案,同时不失精准的推理能力。这一创举标志着在追求人工智能普及化和高效能计算的道路上又迈出了坚实的一步。Mini-o4通过优化算法和精简架构,展现了在处理复杂任务时的灵活性与适应性,为学术界和产业界带来了全新的研究与应用可能,预示着一个更加智能化、轻量化AI时代的到来。
openaio4-mini是由openai推出的一款小型推理模型,专为快速且经济高效的推理任务而设计。该模型在数学、编程和视觉任务上表现卓越,在aime2024和2025基准测试中表现出色,是最佳模型之一。openaio4-mini支持高容量和高吞吐量的推理任务,适用于快速处理大量问题。它具备多模态能力,能够将图像融入思维链进行推理,支持工具使用,并能快速生成详细且深思熟虑的答案。与前代模型相比,openaio4-mini在性能和成本效益方面有显著提升。目前,chatgptplus、pro和team用户可以在模型选择器中找到openaio4-mini和openaio4-mini-high,它们已经取代了o1、o3-mini和o3-mini-high。chatgptenterprise和edu用户将在一周内获得访问权限。开发者可以通过chatcompletionsapi和responsesapi使用该模型。
OpenAIo4-mini的主要功能包括:
OpenAIo4-mini的性能表现:
数学推理:在AIME2024和2025基准测试中,OpenAIo4-mini在不使用工具的情况下准确率达到93.4%,使用Python后准确率提升至98.7%,接近满分。在复杂的数学问题解决能力上,OpenAIo4-mini表现优于前代o3-mini,在某些任务中接近完整版o3。 编程能力: SWE-Lancer:OpenAIo4-mini表现优异,支持高效完成复杂的编程任务,收益表现突出。 SWE-BenchVerified(软件工程题库):在常见算法、系统设计、API调用等任务中表现卓越,准确率和效率均高于o3-mini。 AiderPolyglotCodeEditing(多语言代码编辑基准):在代码编辑任务中表现出色,包括整体重写和补丁式修改,性能都优于o3-mini。 多模态能力: MMMU(大学水平的视觉数学题库):支持将图像和数学符号结合解题,准确率达到87.5%,远高于前代o1的71.8%。 MathVista(视觉数学推理):在几何图形、函数曲线等视觉数学推理任务中表现优异,准确率高达87.5%。 CharXiv-Reasoning(科学图表推理):能理解科学论文中的图表和示意图,准确率达到75.4%,显著优于o1的55.1%。 工具使用: ScaleMultiChallenge(多轮指令遵循):支持处理复杂的多轮指令任务,正确理解执行多轮指令。 BrowseCompAgenticBrowsing(浏览器任务):基于虚拟浏览器搜索、点击、翻页并整合信息,表现接近o3,远超传统AI搜索能力。 Tau-bench函数调用:在函数调用任务中表现稳定,支持准确生成结构化的API调用,复杂场景下需进一步优化。 综合测试: 专家级综合测试(Humanity’sLastExam):在不使用工具的情况下准确率为14.3%,借助插件后提升至17.7%,不及o3的24.9%,但在小型模型中表现优异。 跨学科PhD级科学题(GPQADiamond):在科学题上的准确率为81.4%,稍低于o3的83.3%,在小型模型中已经非常出色。OpenAIo4-mini的项目地址:
项目官网:OpenAIo4-mini的应用场景:
教育辅导:帮助学生解决数学和编程问题。 数据分析:快速生成数据图表和分析结果。 软件开发:生成代码片段,辅助代码调试。 内容创作:提供创意灵感,结合图像生成描述。 日常查询:基于搜索和图像分析回答问题。以上就是OpenAIo4-mini—OpenAI推出的小型推理模型的详细内容,更多请关注其它相关文章!
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系我们删除。(本站为非盈利性质网站)
电话:13918309914
QQ:1967830372
邮箱:rjfawu@163.com