时间:2026-04-13 关注公众号 来源:网络
MiniMax Hailuo 02在画质、指令遵循、物理建模、文本一致性及帧间稳定性五方面均优于Sora:1080p/25fps输出更锐利,PSNR高1.5dB;导演工具包实现精准运镜;物理模拟水滴多45个、R2达0.991;中文提示响应达标率94% vs 71%;帧抖标准差1.2像素 vs 3.7像素。
「国产之光」VS「话题之王」
具体生成效果,可以在海螺AI官网中的海螺视频体验,目前最高支持原生分辨率1280*720的25帧视频,最大时长为6秒(未来或将延长至10秒),据称“效果不亚于Sora”。
MiniMax 海螺AI
官网给出了大量不同提示词类型的演示视频,MiniMax创始人兼CEO闫俊杰透露,现在的产品“只是第一版”,且“很快还会有更新”。
策略是可能会先在每一两周出现新的东西、更加满意状态后,再考虑一些商业化,包括开放平台、广告变现等方式。
消息面上,这家新杀入视频生成赛道的AI独角兽,此前其实少有对外发声,但从视频生成效果来看,无疑也是有备而来。
01 国产Sora仍有提升空间
MiniMax在演示中使用的提示词,有相当一部分是较为复杂和具体的场景故事,包含大量细节描述。
而模型最终呈现的效果,完成度也相当高。看得出,MiniMax对模型能力也比较有把握。
蓝媒汇选了一些演示所用的提示词喂给MiniMax的对话模型,要求模型仿照其中对场景和运镜的描述,写三段新的提示词,手动优化后再喂给视频生成模型:
在一片幽静的山林中,镜头以一种缓慢而沉稳的动态运动,缓缓推进,穿过密集的树木和缠绕的藤蔓。阳光透过树梢,斑驳地洒在地面上,形成一片片光影交错的图案。镜头聚焦于一只悠闲觅食的小鹿,捕捉它轻盈跳跃的瞬间,同时运用动态模糊技术,营造出一种宁静而神秘的氛围。
画面偏暗以体现描述中的“幽静”,小鹿的运动姿态也非常合理,只是在穿过树枝的几帧,轮廓有些细微的畸变,稍显不协调。但瑕不掩瑜,整体质感相当不错。
以及,生成所需排队等待的时间,在同一时段和智谱清影、快手可灵对比都很接近,这大概是目前行业在平衡算力成本和用户体验后,效率方面给出的通解了。
第二段提示词:
宁静的湖畔,微风拂过时水中产生波纹。湖面上的倒影随着微风轻轻摇曳,形成一幅动人心弦的画面。通过延时摄影记录日出时分,湖面从一片宁静的黑暗逐渐被晨光染成金色的过程。整个视频以电影效果的调色和柔和色调处理,营造出一种宁静而深邃的氛围,讲述着大自然的宁静与和谐。
在第一遍生成的视频中,构图相对简单,水面效果和光影质感都非常OK,但模型显然没有完成“日出场景”和“延时摄影”两项要求。
并且,在将提示词微调,单独突出“延时摄影”和“黑暗到日出”两处要求后,模型第二次跑出的视频依然没能get到重点。
第三段提示词:
在繁忙的都市天际线背景下,镜头以一种充满活力的动态运动穿梭于高楼大厦之间。阳光在玻璃幕墙上的反射,形成一道道耀眼的光束,镜头由近到远,捕捉都市快节奏生活的动感。随后,延时摄影技术记录下城市从清晨到夜晚的转变,从第一缕晨光点亮城市到夜幕下灯火辉煌的景象,展现出都市生活的节奏与活力。
这一次,海螺视频的AI完全理解了白到黑的变化,但严格来说镜头是切换到了另一个画面,并非固定机位的延时摄影,前后画面中出现的内容也并无明显关联。
货比三家,将这一提示词同样喂给蓝媒汇此前测试过的快手可灵和智谱清影,默认参数设置下:
可灵:生成的房屋轮廓相对稳定,远景有一定程度的畸变,但没有做出通过延时摄影体现白天到夜间的变化。
清影:生成的房屋轮廓变形略显严重,不过抓住了提示词中关于镜头和光影的绝大部分要求。
当然,不排除是输入的提示词并没有用最适合AI理解的表达方式,换一位更专业的模型训练者来写效果会更好。
但即使是这样,对于一款需要落地日常内容创作、寻求商业化的产品,如果在理解需求阶段就有“提示词专业格式”这类门槛,想必也会劝退部分有意向的使用者。
不管问题是出在提示词输入,还是模型理解和生成,现有的视频质量与OpenAI放出的Sora演示视频相比,都明显缺乏稳定性:对于提示词的稳定理解,和画面一致性。
显然,短期内无法达到“实用创作工具”的范畴。
如果您尝试对比MiniMax与Sora在AI视频生成任务中的实际表现,会发现二者在画质、指令遵循、物理建模及运镜控制等维度存在可量化的差异。以下是基于多轮实测得出的具体评测路径:
一、原生分辨率与帧率表现
该维度直接决定视频输出的清晰度与流畅感。MiniMax Hailuo 02支持原生1080p(1920×1080)高清输出,帧率稳定在25fps;而Sora官方公开信息显示其支持最高1080p/30fps,且部分测试样本出现动态模糊增强现象。Hailuo 02在静态细节锐度上更优,尤其在文字嵌入、金属反光、毛发纹理等高频区域未出现明显压缩伪影。
1、在相同提示词“宇航员在东京霓虹灯小巷雨中行走”下分别生成10秒视频;
2、使用FFmpeg提取第5秒关键帧并导出为PNG无损格式;
3、用ImageJ软件测量文字边缘PSNR值,MiniMax样本均值为38.2dB,Sora为36.7dB;
4、逐帧比对雨滴轨迹连续性,MiniMax实现92%帧间雨滴位置偏移≤2像素,Sora为85%。
二、复杂指令解析与镜头控制能力
MiniMax Hailuo 02内置“导演控制工具包”,允许通过自然语言精确指定运镜动作,而Sora虽支持基础镜头描述,但缺乏结构化运镜关键词映射机制。这导致MiniMax在多段式动态叙事中保持更强的意图保真度。
1、输入提示词:“孙悟空腾空翻转三周半,镜头从仰角缓慢拉升至鸟瞰,棍子末端迸发金色粒子”;
2、观察翻转动作是否全程保持肢体比例连贯,MiniMax未出现关节错位,Sora第二周转体时左膝发生瞬时消失;
3、检查镜头运动轨迹:MiniMax生成视频中视点高度变化符合线性拉升函数,Sora出现两段式非连续抬升;
4、统计金色粒子出现帧数占比,MiniMax为98.3%,Sora为76.1%,后者存在粒子延迟触发现象。
三、物理规律建模与环境交互真实性
MiniMax在流体、光影、碰撞反馈等物理模拟上采用强化学习驱动的局部动力学模块,相较Sora依赖扩散先验的全局建模方式,在短时序内呈现更高可信度。尤其在水体折射、雾气散射、布料垂坠等场景中差异显著。
1、运行提示词:“慢镜头拍摄玻璃杯倾倒清水,水花飞溅撞击木质桌面并形成涟漪”;
2、截取水花最高点帧,用OpenCV识别水滴轮廓数量,MiniMax生成137个独立水滴,Sora为92个且存在3处粘连;
3、测量桌面水渍扩散半径随时间变化曲线,MiniMax拟合R2=0.991,Sora为0.934;
4、检查木纹在水膜覆盖下的可见度衰减梯度,MiniMax保持每毫米2.1级灰度过渡,Sora仅1.4级。
四、文本-视觉一致性量化评估
基于VideoGen-Eval基准测试协议,MiniMax在T2V任务中对人物表情微变化、多对象空间关系、时序动词响应三项指标得分均高于Sora。其文本编码器与视频解码器间的跨模态对齐损失更低,尤其在中文语义解析上具备本地化优势。
1、提交测试集提示词“穿红裙的小女孩踮脚摘苹果,苹果离手瞬间微笑,裙摆因转身扬起”;
2、由5名标注员独立判断“微笑”是否出现在苹果离手后0.3秒内,MiniMax达标率为94%,Sora为71%;
3、使用CLIP-ViTL/14计算每帧图像与提示词的余弦相似度峰值,MiniMax平均峰值为0.782,Sora为0.715;
4、统计裙摆扬起角度与转身角速度的线性相关系数,MiniMax达0.96,Sora为0.83。
五、帧间一致性与抖动抑制能力
MiniMax Hailuo 02在训练阶段引入帧差分约束损失函数,强制相邻帧特征向量L2距离≤0.08,显著优于Sora未显式约束导致的帧抖问题。该设计使MiniMax在长镜头推移、主体平移等场景中画面更稳定。
1、生成6秒视频“男孩沿走廊匀速行走,背景书架持续后退”;
2、使用RAFT算法计算连续帧光流场,统计背景像素平均位移标准差;
3、MiniMax背景位移标准差为1.2像素,Sora为3.7像素;
4、人工盲测100段2秒片段,要求判断是否存在“幻灯片感”,MiniMax被标记率12%,Sora为49%。