使用花园老师的自动生成Web视频演示技能
SKILL介绍
1 | .codex/skills/web-video-presentation/ |
整体流程
在3个「停留点」中可以让AI反复调整文件,例如脚本/大纲、画面/动画等等,直到满意后再进行下一步
1 | Phase 1 内容编写 |
工作目录
1 | my-video/ |
script.md和outline.md
第一步就是根据用户提供的文章生成口播稿script.md,references/SCRIPT-STYLE.md中对口播稿的形式/风格/结构做了大量约束,包括:
- 信息保留度大于60%
- 文字的形式和风骨
- 落盘时以
---分割每个完整想法,作为后续的画面推进step
生成口播稿script.md后会直接生成大纲outline.md,references/OUTLINE-FORMAT.md中对大纲的格式和内容也有大量约束,包括: - 只规划节奏+内容+信息密度,并不规划画面的视觉设计
- 约束整体结构:罗列章节,每章节都要有信息池+开发计划+口播节选,最后要有素材清
- 信息池:一些专业术语名词/短语,以及在
article.md中的来源行号 - 开发计划:章节的每个画面的具体内容,按照step划分
- 口播节选(可选):节选口播稿的一句话,猜测是用于后续构建时的“对应”和“验证”
- 信息池:一些专业术语名词/短语,以及在
- 强调step的作用,口播稿中
---分割的就是step,相应的就是一页画面,最后这些稿子和分块方式会整合到前端项目的narrations.ts中 - 需要参考
references/CHAPTER-CRAFT.md来规范每个章节的大纲内容,相当于一个视觉设计和大纲的中间沟通桥梁
三次「停留点」
- 生成完
script.md和outline.md需要让用户确认,并且选择前端的风格 - 撰写完毕第1章的内容,用户确认画面风格+信息密度+动画效果等内容是否满足要求,并决定接下来的开发计划,包括:
- 串行开发,每章节完成后用户进行验收或者全部完成后再验收
- 并行开发,每个subagent负责1个章节,反馈修改可以统一让主agent进行
- 所有章节都开发完毕后,询问是否合成音频。用户可以手动切换画面并录制播报,也可以用AI语音自动生成视频
自动播报和录制
核心参考文件:references/AUDIO.md和references/RECORDING.md
音频生成
会为每个画面(即每个step)生成一份单独的音频放在前端项目/public/audio下面,按照章节/画面的层级分目录存放。音频生成的来源文件是每个章节的narrations.ts文件,会将该文件转化为audio-segments.json文件,让用户审核后进行录制。默认使用MiniMax的CLI工具mmx生成,播报语音的质量还有待提升,可以考虑用商汤的senseaudio试试。
1 | [ |
视频生成
SKILL设计的是“可见浏览器窗口 + 系统录屏”的流程:
- 打开网页:http://localhost:5173/?auto=1 ,显示
Press SPACE to start遮罩 - 用“QuickTime / OBS / 系统录屏”开始录制;按一次Space,遮罩消失,前端会开始播放音频
- 每段音频结束后自动推进下一页,最后手动停录,再裁掉头尾
案例运行
资料准备
新建一个仓库,把SKILL.md所在文件夹放到.codex/skills中或.claude/skills中,并且在仓库中至少放一份技术文档,可补充额外上下文供AI读取。此处示例使用vscode中的codex插件。

元数据审查
查看script.md和outline.md文件进行审查,如果需要调整直接让AI修改。
生成和审查章节一
SKILL强制生成章节一后让用户进行审查,可以调整前端界面或者口播内容
调整前端界面


调整前后对比:

调整播报内容
每个页面的停留时长取决于口播时长,播报内容会复制到前端项目的narrations.ts文件中,让AI一并调整即可。

串行/并行生成
本质上没有区别,生成“画面”后仍需要人工的调整,时间瓶颈并不在生成的速度上,而是在人工的调整和优化上。
并行生成所有章节后,可以一次性反馈多个问题进行调整,效率可能更高些。

音频生成和视频录制

风格主题切换
在SKILL目录中提供多个主题风格,只需替换掉前端的一个.css文件即可

使用体验
缺点
- 口播风格难以适配
口播稿的风格被references/SCRIPT-STYLE.md框得比较死,如果想要偏个人风格的口播稿需要多次调整/亲手撰写 - 画面需要多次调整
想仅凭outline.md和script.md两份文档,推测出即将AI生成的前端动画效果,比较困难;因此往往需要先生成画面,然后多次调整内容 - 流程固定
每个“页面”的流程是固定的:1. 进入某个step页面后,语音和动画同时自动开启;2. 动画快速结束后,静止停留在该页面,等待口播音频结束;3. 推进下一step页面;
这就导致如果每个页面只会播放一次动画,如果页面元素比较多,观众难以将页面内容和口播内容对应上
优点
- 上下文/记忆管理
- SKILL采用渐进式披露,将整个流程设置为不同阶段,每个阶段指定好读取固定的
.md文件,并列明每个.md文件的概述和作用 - 将过程性资料(例如
outline.md/script.md/article.md等等)持久化到本地,并在SKILL.md中列明工作目录,即使多次对话来反复修改口播稿/大纲/章节页面,压缩上下文后AI仍能比较出色地完成任务 - 第1章验收后再进行并行开发,使得subagent有参考地生成页面,前后主题风格统一
- SKILL采用渐进式披露,将整个流程设置为不同阶段,每个阶段指定好读取固定的
- 用户切入点设置合理
- 提供3个「停留点」让用户进行验收和修改,从而确保AI生成的内容符合用户的预期
- 提供人工录制和自动录制两种生成视频的方式
- 个性化丰富
提供多种主题可供选择,前端构建完毕后仍可以通过替换.css来切换不同风格的主题;同时也可以构建新的风格/主题



