视频大模型黑马SkyReels V4异军突起，冲进Artificial Analysis榜单全球第2名

发布日期：2026-03-02&苍产蝉辫;&苍产蝉辫;&苍产蝉辫;&苍产蝉辫;来源：昆仑万维集团&苍产蝉辫;&苍产蝉辫;&苍产蝉辫;&苍产蝉辫;分享到：

2 月 27 日，Skywork AI 正式发布多模态视频基础模型 SkyReels V4——全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。

该模型以双流多模态扩散 Transformer（MMDiT）为核心架构，实现了 1080p 分辨率、32 FPS 帧率、15 秒时长的影院级音视频同步生成，为专业创作者与普通用户提供了高效、精准、一体化的视频创作解决方案。在 Artificial Analysis 基准测试中，SkyReels V4 模型排名全球第二，超越Google Veo 3.1、OpenAI Sora 2、Wan 2.6等主流模型。

技术报告地址：丑迟迟辫蝉://补谤虫颈惫.辞谤驳/补产蝉/2602.21818

01 权威 Benchmark 与实测双重认证，

SkyReels V4在多项权威评测中表现优异

Artificial Analysis 是一家专注于 AI 大模型和 API 提供商的独立分析机构，被业界誉为“AI 领域的 Gartner”，是当前全球AI大模型评测领域最具影响力的第三方独立机构之一。

它通过对模型的性能、价格、速度等进行标准化测试和横向对比，所有测试均由 Artificial Analysis 内部进行，而不依赖 AI 实验室自行报告的数据，其成果曾被 OpenAI、Anthropic、Google 等全球头部 AI 公司，受权威媒体认可和引用。

在 Artificial Analysis Arena 基准测试中，SkyReels V4 模型在 Text to Video（With Audio）领域 Current models 中全球排名第二（截至2月25日的评测结果），显著优于 Veo 3.1、Vidu Q3、Sora2、Wan 2.6 等主流模型：

同时，在 All models （包括所有历史模型在内）排行榜中，SkyReels V4模型位居第四。

榜单地址：丑迟迟辫蝉://补谤迟颈蹿颈肠颈补濒补苍补濒测蝉颈蝉.补颈/惫颈诲别辞/濒别补诲别谤产辞补谤诲/迟别虫迟-迟辞-惫颈诲别辞?补耻诲颈辞-辞耻迟辫耻迟=迟谤耻别&补尘辫;颈苍肠濒耻诲别-苍辞苍-肠耻谤谤别苍迟=迟谤耻别

此外，基于 2000+ 精选提示词的 SkyReels-VABench 人体评测中，SkyReels V4 模型在指令遵循、运动质量、多镜头叙事一致性三个维度得分第一。

实测数据显示，SkyReels V4 模型生成视频的视觉清晰度、运动流畅度、音频自然度均达到专业创作标准。

02 以 "多模态输入 + 全功能集成" 为核心，

覆盖多场景创作全流程

SkyReels V4 以 "多模态输入 + 全功能集成" 为核心，支持从创意激发到成品输出的全流程创作需求，关键能力包括：

1. 多模态精准控制

支持文本、图像、视频片段、掩码、音频参考等多种输入组合，可实现：

基于参考图像和参考音频的主体形象和音色的保持
基于参考图片和参考运动的主体替换/动作迁移

Prompt：Replace the dancer in the middle of the stage in @video_1 with the wolf from @image_1, ensuring consistent movements.

2. 专业级视频修复

区域智能修复：精准替换视频中的主体、修改属性（如服装颜色、物体形状）、更换背景
参考引导修复：基于参考图像的风格一致性修复，确保编辑前后视觉统一

3. 全维度视频编辑

局部编辑：添加/删除视频中的物体、修改局部纹理与属性
元素智能移除：自动识别并去除水印、字幕、尝辞驳辞，保持背景内容自然连贯
全局编辑：风格迁移（如乐高风、剪纸风）、场景属性调整（天气、光照、时段）
基于参考的编辑：基于形象和运动参考的动作迁移、基于形象的主体插入

4. 高品质音频生成

内置多语言语音合成、音效生成、背景音乐适配能力，尤其在中文语音合成上表现突出，支持情感语音、歌词同步演唱等高级功能，音频质量在信号清晰度、音色真实度、动态范围等指标上达到行业领先水平。

03 三大技术创新助力SkyReels V4异军突起

当前主流视频生成模型普遍存在模态割裂、功能分散、效率不足等问题：音视频合成多采用浅层融合导致同步性差，生成与编辑需切换多个工具，高分辨率长时长生成计算成本高昂。SkyReels V4 模型通过三大核心创新，实现了技术突破：

1. 双流 MMDiT 架构：音视频深度协同生成

SkyReels V4 采用对称双流架构设计，视频分支与音频分支共享基于多模态大语言模型（MLLM）的文本编码器，通过双向跨注意力机制实现全网络深度的视听同步。

其中，视频分支基于预训练文本到视频模型初始化，音频分支从零训练并保持架构对称，确保两种模态在特征维度、注意力结构上的一致性。

为解决音视频 temporal 尺度不匹配问题，模型采用 RoPE 频率缩放技术，将音频 RoPE 频率按视频帧与音频令牌的比例（44.1kHz，21/218≈0.09633）进行调整，实现精准的时间对齐。

在训练阶段，通过联合流匹配损失函数，让音视频分支在生成过程中相互引导，从根本上解决了唇形同步、音效对齐等行业痛点。

2. 统一拼接框架：一站式搞定全场景视频操作

针对生成、修复、编辑等多样化视频创作需求，SkyReels-V4 创新提出通道拼接（Channel-Concatenation）与时序拼接（Temporal-Concatenation）相结合的双维统一范式，通过“Z_input=TemporalConcat(ChannelConcat(V,I,M),Ref) ”的灵活输入形式，将各类任务统一转化为特定掩码配置下的修复问题，实现全场景任务无缝覆盖。

核心输入组件简明定义如下：

1.&苍产蝉辫;痴：带噪声的视频隐向量，为任务基础载体；
2. I：VAE 编码后的条件帧（非条件帧填充黑色图像隐向量）；
3.&苍产蝉辫;惭：二进制掩码（1=保留区域，0=生成/编辑区域）；
4.&苍产蝉辫;搁别蹿：多模态参考隐向量集合（含图像、视频、音频等参考编码结果）。

基于上述组件配置，不同任务可被统一转化：

1. 文本到视频（T2V）：M全为0，基于文本从噪声V全帧生成；
2. 图像到视频（I2V）：仅首帧M=1（对应I中参考图像），后续帧延续生成；
3. 视频扩展：前k帧M=1，基于已有内容自然延伸后续画面；
4. 视频编辑：保留区域M=1、编辑区域M=0，结合Ref保障编辑一致性。

这种一体化设计打破了传统模型任务割裂的局限，让模型能够无缝支持多模态参考生成（含图像、视频、音频多维参考）、区域修复（主体替换、属性修改、背景更换）、元素智能移除（水印、字幕、尝辞驳辞）、全片风格迁移、专业相机控制等全流程创作需求，无需切换工具即可完成从创意构思到成品输出的端到端创作，大幅提升创作效率与体验一致性。

3. 高效生成策略：平衡质量与速度的优化方案

为实现高分辨率长时长视频的高效生成，SkyReels V4 设计了 "低分辨率全序列 + 高分辨率关键帧" 联合生成策略：模型先快速生成低分辨率完整视频和高分辨率关键帧，再通过专用超分辨率和帧插值模块重构高质量视频。

配合视频稀疏注意力（VSA）机制，在保持生成质量不变的前提下，将注意力计算成本降低约 3 倍，让 1080p/32FPS/15 秒视频生成具备实用价值。

此外，模型通过多阶段渐进式训练策略逐步提升能力：从 256px 文本到图像预训练，逐步扩展到 480/720/1080px 多分辨率训练，最终通过大规模多模态数据和精选高质量数据的微调，实现了视觉质量、运动流畅度、音频自然度的全面优化。

04 赋能全行业视频创作，SkyReels V4 标志着 AI 视频生成技术从 "单一功能合成" 进入 "全流程一体化创作" 新阶段

当前，SkyReels V4 视频生成大模型的一体化创作能力已在多个场景落地应用。

例如广告营销：快速生成产物宣传视频，支持多风格切换与批量编辑；内容创作：短视频脚本可视化、Vlog 智能剪辑与修复、多语言配音同步；影视制作：前期概念可视化、镜头扩展、后期修复与局部编辑；教育培训：教学视频生成、课件可视化、多语言字幕自动同步等。

SkyReels V4 模型的发布，标志着 AI 视频生成技术从 "单一功能合成" 进入 "全流程一体化创作" 的新阶段。

展望未来，我们将持续在以下方向进行优化：扩展更长时长（60秒+）的视频生成能力；增强实时交互编辑功能，支持更精细的参数调节；开放模型 API 接口，与更多创作工具生态集成。

我们相信，SkyReels V4 将重新定义 AI 时代的视频创作流程，让专业级视频创作变得更高效、更便捷、更具创意。

最近一年，Skywork AI 已陆续发布并开源多个 SkyReels 模型，包括 SkyReels V1、SkyReels V2、SkyReels V3、SkyReels A1、SkyReels A2 和 SkyReels A3。

欢迎开源社区、AI机构组织、科研学者等AI从业者和开发者下载使用 SkyReels 系列模型：https://huggingface.co/Skywork。

上一篇：识音辨人安全无界：范式自研声纹识别模型下一篇：Guten Tag, Düsseldorf（你好，杜塞尔多夫）！飞天诚信闪耀EuroShop 2026

9i果冻制作

视频大模型黑马SkyReels V4异军突起，冲进Artificial Analysis榜单全球第2名

你知道你的Internet Explorer是过时了吗?