视频工坊 · AI 影像生产系统

视频工坊视频

面向企业的结构化视频生产线: 脚本、分镜、主视觉、动效、旁白、配乐、音效、字幕、质检与导出统一管理。

项目 brief

先生成可执行分镜,再进入声音、素材和 render job。

生成后显示分镜、素材需求和质量闸。

生产流水线

每个项目必须按阶段推进, 不跳过音频和字幕质检。

v0.1 接入中
01

文案与分镜

先产出 script、beat sheet、motion brief, 去掉解释性 AI 腔。

02

主视觉资产

视觉工坊 image2 承重画面、真实 UI 截图、实拍照片视频统一入库。

03

动效与剪辑

HTML/GSAP/HyperFrames、实拍素材、图生视频镜头进入同一时间轴。

04

声音系统

旁白、BGM、环境声、拟音、转场音效分轨总装。

05

字幕与导出

最终音频派生字幕, 48k stereo AAC, 抽帧与实播验证。

当前质量闸

声线先打样确认, 不直接整片批量生成
字幕从最终旁白音频派生, 不机械断词
字幕安全区独占, 不与标签/卡片/Logo 抢位
主交付 MP4 必须 AAC-LC / 48kHz / stereo / faststart
抽帧单帧读字幕, ffprobe + mpv 实播验证
素材、音乐、音效留来源与授权记录

首版先开放项目编排与质检说明; 后续接入 voice sample、render job、素材授权记录与积分计费。

片型入口

不同片型使用不同结构, 不再一套模板套所有视频。

旁白 VO

VoxCPM 已跑通; 后续评测 CosyVoice / F5-TTS / Chatterbox。

配乐 Music

授权曲库兜底; MusicGen / Stable Audio 作为生成候选。

环境与拟音

场景底噪、翻页、脚步、药材、按钮反馈进入独立轨。

下一步工程接入

API 将按 brief、voice-sample、render、job status 四段接入。视频工坊不会让用户直接面对模型参数, 只暴露片型、素材、声线、字幕策略和导出规格。

POST /api/services/video-studio/brief
POST /api/services/video-studio/voice-sample
POST /api/services/video-studio/render
GET /api/services/video-studio/jobs/:id