视频工坊 · AI 影像生产系统
视频工坊视频
面向企业的结构化视频生产线: 脚本、分镜、主视觉、动效、旁白、配乐、音效、字幕、质检与导出统一管理。
项目 brief
先生成可执行分镜,再进入声音、素材和 render job。
生成后显示分镜、素材需求和质量闸。
生产流水线
每个项目必须按阶段推进, 不跳过音频和字幕质检。
01
文案与分镜
先产出 script、beat sheet、motion brief, 去掉解释性 AI 腔。
02
主视觉资产
视觉工坊 image2 承重画面、真实 UI 截图、实拍照片视频统一入库。
03
动效与剪辑
HTML/GSAP/HyperFrames、实拍素材、图生视频镜头进入同一时间轴。
04
声音系统
旁白、BGM、环境声、拟音、转场音效分轨总装。
05
字幕与导出
最终音频派生字幕, 48k stereo AAC, 抽帧与实播验证。
当前质量闸
声线先打样确认, 不直接整片批量生成
字幕从最终旁白音频派生, 不机械断词
字幕安全区独占, 不与标签/卡片/Logo 抢位
主交付 MP4 必须 AAC-LC / 48kHz / stereo / faststart
抽帧单帧读字幕, ffprobe + mpv 实播验证
素材、音乐、音效留来源与授权记录
首版先开放项目编排与质检说明; 后续接入 voice sample、render job、素材授权记录与积分计费。
片型入口
不同片型使用不同结构, 不再一套模板套所有视频。
旁白 VO
VoxCPM 已跑通; 后续评测 CosyVoice / F5-TTS / Chatterbox。
配乐 Music
授权曲库兜底; MusicGen / Stable Audio 作为生成候选。
环境与拟音
场景底噪、翻页、脚步、药材、按钮反馈进入独立轨。
下一步工程接入
API 将按 brief、voice-sample、render、job status 四段接入。视频工坊不会让用户直接面对模型参数, 只暴露片型、素材、声线、字幕策略和导出规格。
POST /api/services/video-studio/brief
POST /api/services/video-studio/voice-sample
POST /api/services/video-studio/render
GET /api/services/video-studio/jobs/:id