9i果冻制作

欢迎光临9i果冻制作官方网站

视频大模型黑马SkyReels V4异军突起,冲进Artificial Analysis榜单全球第2名
发布日期:2026-03-02&苍产蝉辫;&苍产蝉辫;&苍产蝉辫;&苍产蝉辫;来源:昆仑万维集团&苍产蝉辫;&苍产蝉辫;&苍产蝉辫;&苍产蝉辫;分享到:

2 月 27 日,Skywork AI 正式发布多模态视频基础模型 SkyReels V4——全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。

该模型以双流多模态扩散 Transformer(MMDiT)为核心架构,实现了 1080p 分辨率、32 FPS 帧率、15 秒时长的影院级音视频同步生成,为专业创作者与普通用户提供了高效、精准、一体化的视频创作解决方案。在 Artificial Analysis 基准测试中,SkyReels V4 模型排名全球第二,超越Google Veo 3.1、OpenAI Sora 2、Wan 2.6等主流模型。

895e9551-4a8a-458e-bd0e-298f091589ca.png

技术报告地址:丑迟迟辫蝉://补谤虫颈惫.辞谤驳/补产蝉/2602.21818


01 权威 Benchmark 与实测双重认证,

SkyReels V4在多项权威评测中表现优异


Artificial Analysis 是一家专注于 AI 大模型和 API 提供商的独立分析机构,被业界誉为“AI 领域的 Gartner”,是当前全球AI大模型评测领域最具影响力的第三方独立机构之一。

它通过对模型的性能、价格、速度等进行标准化测试和横向对比,所有测试均由 Artificial Analysis 内部进行,而不依赖 AI 实验室自行报告的数据,其成果曾被 OpenAI、Anthropic、Google 等全球头部 AI 公司,受权威媒体认可和引用。

在 Artificial Analysis Arena 基准测试中,SkyReels V4 模型在 Text to Video(With Audio)领域 Current models 中全球排名第二(截至2月25日的评测结果),显著优于 Veo 3.1、Vidu Q3、Sora2、Wan 2.6 等主流模型:

3510af81-bf77-41bf-8d59-9319673f9f52.png


同时,在 All models (包括所有历史模型在内)排行榜中,SkyReels V4模型位居第四。

61ec0c1a-1b95-47b6-8164-254e4cb7490f.png

榜单地址:丑迟迟辫蝉://补谤迟颈蹿颈肠颈补濒补苍补濒测蝉颈蝉.补颈/惫颈诲别辞/濒别补诲别谤产辞补谤诲/迟别虫迟-迟辞-惫颈诲别辞?补耻诲颈辞-辞耻迟辫耻迟=迟谤耻别&补尘辫;颈苍肠濒耻诲别-苍辞苍-肠耻谤谤别苍迟=迟谤耻别

此外,基于 2000+ 精选提示词的 SkyReels-VABench 人体评测中,SkyReels V4 模型在指令遵循、运动质量、多镜头叙事一致性三个维度得分第一。

实测数据显示,SkyReels V4 模型生成视频的视觉清晰度、运动流畅度、音频自然度均达到专业创作标准。


02 以 "多模态输入 + 全功能集成" 为核心,

覆盖多场景创作全流程


SkyReels V4 以 "多模态输入 + 全功能集成" 为核心,支持从创意激发到成品输出的全流程创作需求,关键能力包括:

1. 多模态精准控制

支持文本、图像、视频片段、掩码、音频参考等多种输入组合,可实现:

  • 基于参考图像和参考音频的主体形象和音色的保持

  • 基于参考图片和参考运动的主体替换/动作迁移

Prompt:Replace the dancer in the middle of the stage in @video_1 with the wolf from @image_1, ensuring consistent movements.


2. 专业级视频修复

  • 区域智能修复:精准替换视频中的主体、修改属性(如服装颜色、物体形状)、更换背景

  • 参考引导修复:基于参考图像的风格一致性修复,确保编辑前后视觉统一

3. 全维度视频编辑

  • 局部编辑:添加/删除视频中的物体、修改局部纹理与属性

  • 元素智能移除:自动识别并去除水印、字幕、尝辞驳辞,保持背景内容自然连贯

  • 全局编辑:风格迁移(如乐高风、剪纸风)、场景属性调整(天气、光照、时段)

  • 基于参考的编辑:基于形象和运动参考的动作迁移、基于形象的主体插入

4. 高品质音频生成

内置多语言语音合成、音效生成、背景音乐适配能力,尤其在中文语音合成上表现突出,支持情感语音、歌词同步演唱等高级功能,音频质量在信号清晰度、音色真实度、动态范围等指标上达到行业领先水平。


03 三大技术创新助力SkyReels V4异军突起

当前主流视频生成模型普遍存在模态割裂、功能分散、效率不足等问题:音视频合成多采用浅层融合导致同步性差,生成与编辑需切换多个工具,高分辨率长时长生成计算成本高昂。SkyReels V4 模型通过三大核心创新,实现了技术突破:


1. 双流 MMDiT 架构:音视频深度协同生成

SkyReels V4 采用对称双流架构设计,视频分支与音频分支共享基于多模态大语言模型(MLLM)的文本编码器,通过双向跨注意力机制实现全网络深度的视听同步。

其中,视频分支基于预训练文本到视频模型初始化,音频分支从零训练并保持架构对称,确保两种模态在特征维度、注意力结构上的一致性。

为解决音视频 temporal 尺度不匹配问题,模型采用 RoPE 频率缩放技术,将音频 RoPE 频率按视频帧与音频令牌的比例(44.1kHz,21/218≈0.09633)进行调整,实现精准的时间对齐。

在训练阶段,通过联合流匹配损失函数,让音视频分支在生成过程中相互引导,从根本上解决了唇形同步、音效对齐等行业痛点。


2. 统一拼接框架:一站式搞定全场景视频操作

针对生成、修复、编辑等多样化视频创作需求,SkyReels-V4 创新提出通道拼接(Channel-Concatenation)与时序拼接(Temporal-Concatenation)相结合的双维统一范式,通过“Z_input=TemporalConcat(ChannelConcat(V,I,M),Ref) ”的灵活输入形式,将各类任务统一转化为特定掩码配置下的修复问题,实现全场景任务无缝覆盖。

核心输入组件简明定义如下:

1.&苍产蝉辫;痴:带噪声的视频隐向量,为任务基础载体;

2. I:VAE 编码后的条件帧(非条件帧填充黑色图像隐向量);

3.&苍产蝉辫;惭:二进制掩码(1=保留区域,0=生成/编辑区域);

4.&苍产蝉辫;搁别蹿:多模态参考隐向量集合(含图像、视频、音频等参考编码结果)。


基于上述组件配置,不同任务可被统一转化:

1. 文本到视频(T2V):M全为0,基于文本从噪声V全帧生成;

2. 图像到视频(I2V):仅首帧M=1(对应I中参考图像),后续帧延续生成;

3. 视频扩展:前k帧M=1,基于已有内容自然延伸后续画面;

4. 视频编辑:保留区域M=1、编辑区域M=0,结合Ref保障编辑一致性。


这种一体化设计打破了传统模型任务割裂的局限,让模型能够无缝支持多模态参考生成(含图像、视频、音频多维参考)、区域修复(主体替换、属性修改、背景更换)、元素智能移除(水印、字幕、尝辞驳辞)、全片风格迁移、专业相机控制等全流程创作需求,无需切换工具即可完成从创意构思到成品输出的端到端创作,大幅提升创作效率与体验一致性。


3. 高效生成策略:平衡质量与速度的优化方案

为实现高分辨率长时长视频的高效生成,SkyReels V4 设计了 "低分辨率全序列 + 高分辨率关键帧" 联合生成策略:模型先快速生成低分辨率完整视频和高分辨率关键帧,再通过专用超分辨率和帧插值模块重构高质量视频。

配合视频稀疏注意力(VSA)机制,在保持生成质量不变的前提下,将注意力计算成本降低约 3 倍,让 1080p/32FPS/15 秒视频生成具备实用价值。

此外,模型通过多阶段渐进式训练策略逐步提升能力:从 256px 文本到图像预训练,逐步扩展到 480/720/1080px 多分辨率训练,最终通过大规模多模态数据和精选高质量数据的微调,实现了视觉质量、运动流畅度、音频自然度的全面优化。


04 赋能全行业视频创作,SkyReels V4 标志着 AI 视频生成技术从 "单一功能合成" 进入 "全流程一体化创作" 新阶段

当前,SkyReels V4 视频生成大模型的一体化创作能力已在多个场景落地应用。

例如广告营销:快速生成产物宣传视频,支持多风格切换与批量编辑;内容创作:短视频脚本可视化、Vlog 智能剪辑与修复、多语言配音同步;影视制作:前期概念可视化、镜头扩展、后期修复与局部编辑;教育培训:教学视频生成、课件可视化、多语言字幕自动同步等。

SkyReels V4 模型的发布,标志着 AI 视频生成技术从 "单一功能合成" 进入 "全流程一体化创作" 的新阶段。

展望未来,我们将持续在以下方向进行优化:扩展更长时长(60秒+)的视频生成能力;增强实时交互编辑功能,支持更精细的参数调节;开放模型 API 接口,与更多创作工具生态集成。

我们相信,SkyReels V4 将重新定义 AI 时代的视频创作流程,让专业级视频创作变得更高效、更便捷、更具创意。

最近一年,Skywork AI 已陆续发布并开源多个 SkyReels 模型,包括 SkyReels V1、SkyReels V2、SkyReels V3、SkyReels A1、SkyReels A2 和 SkyReels A3。

欢迎开源社区、AI机构组织、科研学者等AI从业者和开发者下载使用 SkyReels 系列模型:https://huggingface.co/Skywork。

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.