Video Generate 设计笔记
ENVideo Generate 一开始的问题很简单:短视频生产这个流程里,有多少部分可以被拆清楚,然后交给软件去处理?
我不想把它做成一个只写着“AI 视频”的黑盒,把所有决策都藏起来。更有用的形状应该是机械一些的:文本变成脚本,脚本变成图片提示词,图片变成视频素材,最后生成的视频被存到一个可以下载、可以检查的位置。
1. 让流程可见
核心设计想法是 pipeline,而不是聊天窗口。
短视频生成里面其实有好几个不同任务:
- 理解原始文本
- 决定视频结构
- 编写脚本
- 生成匹配图片
- 合成视频
- 返回用户真正能使用的结果
如果这些步骤都被藏在一个模糊按钮后面,调试会很痛苦。当结果不好时,我需要知道是哪一步坏了。是脚本太弱?图片提示词太泛?媒体服务失败?还是存储链接有问题?
所以界面和后端都应该尊重同一个结构。一键生成可以存在,但内部仍然应该是一组可观察的步骤。
2. AI 负责起草,不负责拥有
AI 部分应该减少空白页压力,而不是把控制权从用户手里拿走。
对于这个项目,我不太关心模型能不能生成惊艳内容。我更关心它能不能生成结构化内容。一个好的脚本不只是顺滑文字,它应该包含场景、节奏、画面方向,并且给下一步留下足够明确的约束。
所以设计上我更倾向于服务层,而不是到处散落 prompt 调用。应用应该把模型输出当成中间数据,再以可控方式传给图片生成和视频生成。
3. 把产品流程和服务商细节分开
DeepSeek、阿里云文生图、ICE 和 OSS 都是具体服务商的能力。用户使用产品时,不应该需要理解这些东西。
但代码里仍然要把边界分清楚:
- DeepSeek 写脚本
- 图片生成服务创建视觉素材
- ICE 合成视频
- OSS 保存生成媒体
这种分离很重要,因为云 API 会变,凭据会过期,生成媒体流程也经常会出现局部失败。如果代码把所有东西都揉成一个大动作,小问题就会变得很难修。
4. 先做小工具,不做重型工作台
我希望它更像一个任务工具,而不是视频编辑器。用户输入文本,开始生成,查看进度,下载结果。
这个选择能让范围保持诚实。完整的视频编辑器需要时间线、手动裁剪、素材库、预览状态、撤销和导出设置。这些都是实际功能,但会把项目变成另一个东西。
第一个有价值的版本应该更窄:先让自动化路径完整,再考虑手动编辑控制。
5. 把进度当成正式状态
视频生成不是瞬间完成的。如果页面只是安静等待,就算后端还在工作,产品也会显得坏掉了。
这里的进度展示不是装饰,而是契约的一部分。用户需要知道系统已经接收输入,正在生成脚本,正在创建素材,正在等待视频输出,最后是完成还是失败。
这对开发也有帮助。当 UI 把状态暴露清楚,后端失败会更容易复现。
我现在的规则
对于 Video Generate,设计规则是:
turn text into a visible production pipeline |
这个项目的价值在于,把 AI 视频生成里那些隐藏步骤拆得足够具体,让它们可以被检查、重试和改进。