AI重构视频工作流
作为一个个人up主,稳定的选题、写稿、制作视频,需要一个稳定的工作流,才能持续稳定输出。终于在今年(26年)5月中旬,我用智能体完整重构了整个视频生产过程。
春节后:第一次尝试
大概今年春节前后,我就在想用AI来辅助选题写稿的过程。当时Claude Opus 4.6 和GPT 5.4的惊艳能力,我测试后觉得完全可以胜任。但是,当时如果使用ClaudeCode或者CodeX,token消耗的成本有点太高了。所以当时决定把每步流程总结为各种提示词,然后单独调用大模型。而总结流程的过程我选择了GLM5和当时还不那么完善的OpenClaw。
大概流程是:热点筛选 ⟶ 列提纲 ⟶ 手动汇总初稿 ⟶ 写文案 ⟶ 语言风格化 ⟶ 产生画面(分镜)
每个视频的token成本大概5-10块,觉得不错。人工最大的介入是热点筛选出来后人工筛选、手动写初稿、用NanoBanana产生画面并在PR里制作视频。一份3-5分钟的视频做下来,大概3到5天。
视频做出来的播放效果也明显强于半年前的古法做视频。那时候AI只处于制作小部分辅助,出图还需要本地跑Flux图。而且做一段时间就发现写不出来稿子了。
三月份:AI味始终去不掉
从三月份大概开始做了10个视频之后,我越来越觉得,我面对的稿子总有股AI味,虽然流程中写稿和风格化中已经提示要去掉AI味,但好像没有毛用。后续还专门在语言风格化后加了口播优化流程,也意义不大。放在朱雀AI识别的平台,稿件的AI概率都是95%-98%,😵
四月底到五月初:DeepSeek v4 来了
时间就到了四月底、五月初,在五一前发布了DeepSeek v4,起初就在发布的时候我简单的测试了一下模型能力,不少方面和GLM 5.1没太大差异。文案方面也弱于GPT 5.5,我就没特别在意。测试了几十万token后,就放在一旁了。
然后就是碰到某个国产xxxxCode工具推广,免费领DeepSeek v4 Flash用。本着试试的态度,想做一个python驱动,前端Web的全流程工具,可能是这个国产的xxxxCode工具没太抄全泄露的ClaudeCode,整个过程体验并不好,模型能力也不太行,flash的deepseek很容易碰到一个问题就卡住。这个工具做了2天,推进到写提纲的过程,就推进的困难重重。比ClaudeCode写代码的感觉也差很多。本着现在的工作流还能用,也就搁置。
5月18日:忍不了了,必须重构
直到5月18日,我看着写出的下一期的文档和做出的整篇分镜设计。就是有种不想去出图,去打开 PR 制作的感觉。我又把文案放到了朱雀 AI 里扫了一遍。嚯,这回竟然有99.9%的概率是AI文。我萌生了一个想法,一定要重构一次,而且要从根本上解决这个去AI味的问题。其实我这回玩智能体这件事本身并不是想重建整个工作流,只是为了去AI味,算是稀里糊涂做了一堆东西出来。
耗时7天,消耗1.3亿token,8个智能体
首先做的第一步,我是想要用什么工具,要怎么去梳理我的流程,去做一个什么样的东西?从25年年头开始,我就一直在用 Cherry Studio 去接各个平台的 API 然后统一去调用。
本来 Cherry Studio 也就是一个调用各个大模型的一个工具汇总接口吧。龙虾火热的时候,它也在里面内置龙虾。MCP 火热的时候,它在里面内置 MCP。它真的就是一个 AI 的大杂烩。我无意中打开了里面的智能体这一块,之前我认为它跟助手区别不大。点开才发现,它实际上是将 Claude Code 这种编码工具杂糅了 OpenClaw 龙虾这种工具,形成了一个叫智能体的玩意。什么 skill 啊,MCP 啊,斜杆命令,定时任务,心跳,全局记忆。真的是个大杂烩,啥玩意都有。
本着"打都打开了,那我就试试,试试就试试"的态度,我打算用Deepseek V4 Pro 尝试着做一下。
开始做的第一件事,其实就是梳理流程。
我建了一个叫风格讨论的智能体,我打算跟 AI 一步一步重新整理我的流程,并把我遇到的问题告诉他。他试图从我的流程的提示词的各个 Markdown 文件,一步一步向前推演,并且在整个推演过程中,一步一步把我刚刚写好的那篇文案重新做一遍试一试。
差不多我跟 AI 聊了很久,他帮我把流程重新整理为:
热点筛选 ⟶ 列提纲 ⟶ 人工写稿 ⟶ 风格诊断(循环迭代任务)⟶ 质量评估 ⟶ 产生画面(分镜)
对比来看,原来的流程是:热点筛选 ⟶ 列提纲 ⟶ 手动汇总初稿 ⟶ 写文案 ⟶ 语言风格化 ⟶ 产生画面(分镜)
可能现在从结果上看,差异不是很大。但是其实这个里面,每一步的提示词,如何使用,我需要什么样的需求,它帮我把提示词,从头到尾的完整的梳理了一遍,特别是列提纲、人工写稿跟风格诊断这一块。
现在我出来的文章,去朱雀 AI 扫一遍,能做到 5%~10% 是 AI 做的。所以平台一定判定我文章是人工写的。而且跟纯 AI 写稿的反复金句砸呀、设置网络梗呐、强制口语化来比,这种定下基调、一条线、多维度的帮我去列好提纲,让我手动自己写稿。它确实也从根本上避免了 AI 味,用 AI 写这么多次文章,我也感觉到,其实能避免文章产生 AI 味的唯一办法,就是用人写一遍。其实当文案能去掉 AI 味以后,视频在平台能给量的级别,会跟 AI 文章完全不一样。其实各个平台对 AI 生成的画面都是有容忍性的,但对稿子,如果是 AI 还是有很强的抵触的。
好,说回来,其实我发现整个流程就很流畅的,大概就两天左右跟 AI 沟通完了,并完全落地实现了。
将原来的一系列生产的 AI 助手全部更新,并且效果比原来好很多。而且用的模型也比以前便宜不少。以前基本上是 Claude Opus 或者 GPT 5.5,写一篇稿子下来,五块到十块嘛。现在整个流程里面,基本都是国产模型。有 Deepseek V4 Pro,有 GLM 5.1,还有 Kimi 2.6(质量评估)。
有且只有,最后一步生成视频封面的提示词,我一直都用 GPT 5.5,现在我试完的效果还是 GPT 5.5最好。可能是因为我那个地方用的是 GPT Image 2去生成的,所以 GPT 5.5效果好也是有相关的嘛。
整顺之后:真tm神奇
将整个工作流整顺之后呢?我很久没有这种觉得很神奇、很感慨的感觉了。
所以我继续打算就用这个智能体,把自动生图(NanoBanana),还有自动写生成 HyperFrames 的动画、自动化封面(GptImage2),都完成掉。这块就不细说了,我分别建立了不同的智能体去完成了不同的工作。因为我本来也知道要去找什么 API 文档给它塞进去,对接的非常顺利。看着写好的分镜文档塞进智能体,然后坐在电脑前,大概也就十来分钟,它可以把所有的所需要的素材全部一个个画出来。不满意的地方可以让他重画,画完了还可以统一进行去水印操作,哇太神奇了。
插个题外话。我用 NanoBanana 画完图后,本来是想做偏那种透明文档、透明图片的嘛,想想去白底。无意就发现了一种可以验证怎么去掉 NanoBanana 那个背后那个水印的一个过程,当然也是凑巧。因为我生成的图片是那种很卡通的,有大块颜色相同的。所以原理上,它就是把大块的颜色变成一个颜色。暗水印的颜色变化虽然肉眼看不出来区别,但机器是可以看出来的嘛。去掉图片上的暗水印的原理就是把那些相近的颜色抹成一样就完了。但这玩意应该只能碰到颜色块相对大的,颜色相对少的卡通图片上。你像仿真实风格的,应该还是蛮难去掉的,不过也有办法。
最后我还把这个 Cherry Studio 的上面建了像选题库整理啊,做了一个这个Github上建立的博客的自动提交的方案呐(小G),还建了一个可以跟微信连接的助手(小红),随时可以下达任务,记录个点子啊,写个博客啥的。未来我想我的自己构建那种智能体可能越来越多,AI 协助的内容可能也越来越多。一方面真的觉得挺神奇的。以前做这么多功能的东西,我不得一个月啊。这几天就搞定了。而且以前那种,我选择如果用程序来实现,我可能会想先做个软件。但是实际上现在,如果你真的只是文案上的东西,你可能做成一个智能体,就已经比自己做一个软件要方便的多。
效率对比
在智能体这一篇重构之前,我从选题到录音到做画面,可能需要两三天。然后再去 PR 把东西生产出来,又得一两天。
重构之后,我前面的这个选题,到出画面,可能一个小时就够了。再去 PR 里花个一两天的时间把它再做出来,能够极大的提升我的生产效率。而且由于大模型从原来的 Claude Code GPT 大规模使用,变成了 Deepseek 以后,命中率太牛批了。而且 Deepseek V4 这两天不是永久降价了吗?现在可能出一篇稿子,也就花了个两块钱的样子就足够了。梁圣的恩情还不完呀~
一点感想:软件 vs 智能体
通过这次多智能体迭代,我认为,如果智能体能完成的工作,完全没有必要去单独做一个软件。只用把一个智能体做好,让智能体把自己的行为存档。
如果用 Claude Code,你可能存的是 CLAUDE.md 如果用 CodeX,你可能存的是 Agents.md
而存档的这个智能体,你只要测试过,在上下文清空后,仍然能够很好的去把工作完成,就足够了呀。
再说多一点:AI 时代,人类在哪
哇,这一周的历程让我感觉很感慨,很厉害,Amazing。但同时也有一点恍惚,虽然我参与了整个过程,但是我跟以前古法编程的时候完全不一样。我只在我整个这个工作过程中,虽然也改过一点点代码,因为我毕竟还是会改代码的嘛。改的不多,改了一点点,并且我有的代码是复制过来交给 AI 让它去按照我的思路去写。但是真的我能做的工作可能就 1% 了,剩下的全部都是 AI 写代码,AI 整理流程,我就给思路,就像一个老板在指挥员工一样,真的就是老板在指挥员工。
以后可能真的只需要架构师,而计算机教学方面,我认为更偏向一个文科教育。你只用告诉要学计算机的人:这个东西是怎么构成的?有哪些方面?一些原理,比方说编程,只有顺序、选择和循环。就够了。然后告诉他怎么用 AI 编程,他就能做出来很多代码。并且随着我们整个大模型和 AI 的进化,AI 写代码终将会取代人类。
但是同样也有问题,以后那些古法程序员就没有了,对吧?这个世界上是不存在初级程序员、中级程序员的,只有架构师了。那哪天万一大模型跑不起来,比方说一个核弹把地球文明毁灭了,那人类文明还怎么重建呢?
好了,我还是该回去继续做我的视频了。
顺便聊聊为啥要做普法视频
作为一个写了十年代码的程序员,又过了法考,还打过一些官司,有直系亲属的刑事官司,有参加法考时打的劳动纠纷、知识产权纠纷等等。虽然我自己在给自己打官司的诉讼上全都赢了,但是通过普通人打官司,我还是感觉到,其实真正缺的不是你打官司的时候,要去找律师解决问题,而是你根本就不遇到官司才是最需要的。我们的社会不是一个需要打官司的社会,真正打官司的时候,往往实际上双方都输了。而让我想做普法视频的初衷也是,就将最基础、最朴素的法律观念能够扎根在大家的心中。你遇事能冷静一点,能知道怎么留存证据,能知道怎么样躲避风险,不打官司,才是普法的最终目的。希望我能成功吧