/zh/posts/video-generate-design-notes

Video Generate 设计笔记

2025-07-11

Video Generate 一开始的问题很简单：短视频生产这个流程里，有多少部分可以被拆清楚，然后交给软件去处理？

我不想把它做成一个只写着“AI 视频”的黑盒，把所有决策都藏起来。更有用的形状应该是机械一些的：文本变成脚本，脚本变成图片提示词，图片变成视频素材，最后生成的视频被存到一个可以下载、可以检查的位置。

1. 让流程可见

核心设计想法是 pipeline，而不是聊天窗口。

短视频生成里面其实有好几个不同任务：

如果这些步骤都被藏在一个模糊按钮后面，调试会很痛苦。当结果不好时，我需要知道是哪一步坏了。是脚本太弱？图片提示词太泛？媒体服务失败？还是存储链接有问题？

所以界面和后端都应该尊重同一个结构。一键生成可以存在，但内部仍然应该是一组可观察的步骤。

AI 部分应该减少空白页压力，而不是把控制权从用户手里拿走。

对于这个项目，我不太关心模型能不能生成惊艳内容。我更关心它能不能生成结构化内容。一个好的脚本不只是顺滑文字，它应该包含场景、节奏、画面方向，并且给下一步留下足够明确的约束。

所以设计上我更倾向于服务层，而不是到处散落 prompt 调用。应用应该把模型输出当成中间数据，再以可控方式传给图片生成和视频生成。

DeepSeek、阿里云文生图、ICE 和 OSS 都是具体服务商的能力。用户使用产品时，不应该需要理解这些东西。

但代码里仍然要把边界分清楚：

这种分离很重要，因为云 API 会变，凭据会过期，生成媒体流程也经常会出现局部失败。如果代码把所有东西都揉成一个大动作，小问题就会变得很难修。

我希望它更像一个任务工具，而不是视频编辑器。用户输入文本，开始生成，查看进度，下载结果。

这个选择能让范围保持诚实。完整的视频编辑器需要时间线、手动裁剪、素材库、预览状态、撤销和导出设置。这些都是实际功能，但会把项目变成另一个东西。

第一个有价值的版本应该更窄：先让自动化路径完整，再考虑手动编辑控制。

视频生成不是瞬间完成的。如果页面只是安静等待，就算后端还在工作，产品也会显得坏掉了。

这里的进度展示不是装饰，而是契约的一部分。用户需要知道系统已经接收输入，正在生成脚本，正在创建素材，正在等待视频输出，最后是完成还是失败。

这对开发也有帮助。当 UI 把状态暴露清楚，后端失败会更容易复现。

对于 Video Generate，设计规则是：

turn text into a visible production pipeline

这个项目的价值在于，把 AI 视频生成里那些隐藏步骤拆得足够具体，让它们可以被检查、重试和改进。