跳转至

Blog

我们需要什么样的AI

今天来填个坑,讲讲我之前想说的,需要什么样的 AI 工具。

代码:AI的最佳试验田

其实大语言模型经验这两年,从24年底ChatGPT 开始让我们真的感觉有聊天的这个,到现在26年6月。实际上大语言模型能直接完整解决的任务只有写代码。

当然,这个写代码能这么快搞定的,一个是写代码本身是一个对大语言模型来说,自闭环的评,很容易评价好坏的一个过程。第二,就是这个 GitHub,这个开源代码库啊,它既贡献了开源,又覆灭了程序员。

但是我最近对于 Claude Code,因为 Fable 5模型刚发布嘛。其实哪怕最先进的大模型,你看上去做个 demo 可能只需要几句话。实际投入工业应用的时候,使用者的判断力跟指导能力,就是组织语言、全局架构把控,这种能力是很关键的。远远不是说一个大模型,就能取代程序员。

但跑题了。其实今天讲我们要什么工具,我只是从程序员引入。因为程序员用的这个客户端,Claude Code 这种。一开始都是类似于命令行,对吧?哪怕到现在,其实也是那种类似命令行的一个交互方法。其实我并不觉得这个方法对一般人很通用。对于经常写代码的人当然也无所谓,这样觉得敲得快呀,简洁啊,极客啥的。一般在做应用的时候,这反而不通用。我们需要用的 AI 工具应该是一个对于你平常使用无感接入的。程序员因为之前的编代码的方法,和 Claude Code 这种类似于命令行的回馈特别的契合,他本来就是干那活的,知道吧?所以对于 Claude Code 对于程序员来说,他是无感接入的。但是对于一般人使用,尼玛跟天书一样,对吧?

所以,我们到目前为止,你能看到市面上的这种 AI 工具,要么就是网页版的,要么就是一个类似于聊天框的。哪怕它扩展很多倍,花里胡哨的,你像CodeX。但是它给你的感觉就像一个能和你聊天的机器人。我们现在没有找到这种 AI 如何去快速嵌入一般工作流的过程。因为我们这个整个做 AI 的,它是基于 LLM 的大语言模型。那么这个大语言模型它本身就是一个聊天。我们用什么提示词,上下文如何量化去,向量化,然后去传给模型,其实本质上还就是聊天。所以,工程上你第一感觉我们就该做个聊天的东西。你像程序员的那种 Claude Code,它虽然是打字是聊天,但是它是无缝用命令行那种形式接入了原来那套工作流。所以它可以在编程的过程中有很棒的感觉。

但是你想想,像 AutoCAD 这种其实用命令去建模,它其实本质上也是很贴合这个大语言模型的生成模式,其实很方便,应该去扩展,大语言模型也可以通过给 AutoCAD 输入命令来去建模。但是你看看我们实际上工业化能够去这种无缝嵌入 AutoCAD 的,几乎是没有,对吧?只有一些个人,或者说相对小众的人会去把智能体去对接这样一个东西。

无感接入

所以我一直在想,我们的 AI 到底需要做什么?其实从产品层面讲,最核心的要求就是无感接入。要能丝滑地和你整个的工作相契合。我差不多在5月底到6月初,不停地迭代和优化我做视频的一个流程。中间已经自己搞过差不多20个智能体。从原来的流程,很多东西自动化了。你像原来我得开ComfyUI去绘制图片。然后因为这个图片它是有上下文参考的,也可能要把我的模型嵌进去,对吧?整个这个过程以前,有很多重复的人工。我在这个里面,我把API开放出来,接入远端。我依然用Nano Banana或者这个GPT Image2去生成图片,而且也同样生成参考。但是我已经可以基本上做到完全不用人工去干预了。我现在稿件写完,就是人工写稿写完的话,然后出完分镜。分镜我过一遍,过一遍之后,我那个文档,那个Markdown文档,我传入到我的绘图工作流里面,它就会可能二三十分钟吧,能把我一整篇文案的图出出来。我只能说,哎,这100张图里,啊,这个,这几张不行,你重新画一下。然后他就重新画一下,然后我说,好,可以了,他就可以进行下一步。这是一个实际的一个流程。但问题在于,其实它中间这个过程呢,并不是无感接入的。我整个接入的过程呢,你说是程序开发吧,它也不是。那就是一个跟智能体的聊天,但是跟智能体聊天的过程中,你就会感觉这个并没有那么好用。但结果上确实提高了很多效率。搭建的过程中,我觉得如果没有足够的知识和平常的实际需求。通过智能体来提高生产力。并且,想解放人的创造力是没有那么容易的。而且,因为你实现的过程中要注意很多细节,然后不停地去迭代。哪怕有的时候你看我把 API 文档给大语言模型,其实也会理解错。大多数文档阅读没问题,但是上下文有的时候长了也有问题。问题一方面是工程软件给你的感觉接入不是无感。

另一方面是整个上下文其实有限制,有的时候写太长了,你真的一兆也不够用,对吧?而且,现在说的一兆上下文,它越前面的内容,它还是有一点点遗忘,对吧?哪怕那个上下文,它是没有被压缩的时候,它还是会有一点点遗忘的。

另外,这个其实。如何做理想的工具形态?我想可能任何一行。你想无感接入。这种东西,我很难得抽象出来。但是如果实际上,如果他是一个文员,他这个要面对很多 Word 表、Word 文档。那么其实,这个时候你应该从传统工具接入,对吧?无感接入才是你应该实现的。然后那个时候,你像以前,像 Word 的右下角助手,你现在觉得,那个助手当时像个SB一样。但现在,你在做 Word右下角的助手,接入大语言模型,并且给它赋予足够的工具能力,那么它就是非常厉害的。应该也是比较不敢接入的。然后你其实你说,P 图。我们虽然像 GPT Image 2有很强的出图和编辑图文能力。但是有的时候我如果在一个类似 PS 的软件里,它能高度集成 GPT Image 2,然后把这个功能能够放大出来,那个时候才能对接它的工业设计吧。是这样吧?其实正版的这个 PS 里面已经有一部分这个能力,但是这个能力还我认为还远远不够。

就终归来说,我觉得就是要在你做的那个工具中,无感接入。如果是需要创造的话,那么这个 AI 的这个能够解放的生产力就放不太出来。

草台班子

另外话说回来,我是觉得啊,像你像以后的程序员呢,可能不需要那么强的动手能力,他更多的是文科嘛,你要理解整个计算机的架构啊,软件如何去设计啊。对吧?你比方说你的软件,你如果有很多个子类需要实现,然后你要抽,要有个抽象类,你肯定要有一个什么工厂模式嘛,对吧?你像我们软件学的设计模式,其实反而变得很关键。这种工厂模式。你如果不明确点给 AI 他也不知道。你不能指望提示词里,或者说别人的 skill 里。给你把所有的这个经验参数总结进去,他肯定是没有的。但是你你得告诉他用这个。我们总嘲笑世界是个草台班子。其实当你有了 AI,你有了巨大的生产力以后,你自己就是草台班子,对吧?你不知道要做什么,你拿着可以制造核武器的东西在这里挖煤,还嘲笑别人是草台班子,是不是滑稽?

AI重构视频工作流

作为一个个人up主,稳定的选题、写稿、制作视频,需要一个稳定的工作流,才能持续稳定输出。终于在今年(26年)5月中旬,我用智能体完整重构了整个视频生产过程。

春节后:第一次尝试

大概今年春节前后,我就在想用AI来辅助选题写稿的过程。当时Claude Opus 4.6 和GPT 5.4的惊艳能力,我测试后觉得完全可以胜任。但是,当时如果使用ClaudeCode或者CodeX,token消耗的成本有点太高了。所以当时决定把每步流程总结为各种提示词,然后单独调用大模型。而总结流程的过程我选择了GLM5和当时还不那么完善的OpenClaw。

大概流程是:热点筛选 ⟶ 列提纲 ⟶ 手动汇总初稿 ⟶ 写文案 ⟶ 语言风格化 ⟶ 产生画面(分镜)

每个视频的token成本大概5-10块,觉得不错。人工最大的介入是热点筛选出来后人工筛选、手动写初稿、用NanoBanana产生画面并在PR里制作视频。一份3-5分钟的视频做下来,大概3到5天。

视频做出来的播放效果也明显强于半年前的古法做视频。那时候AI只处于制作小部分辅助,出图还需要本地跑Flux图。而且做一段时间就发现写不出来稿子了。

三月份:AI味始终去不掉

从三月份大概开始做了10个视频之后,我越来越觉得,我面对的稿子总有股AI味,虽然流程中写稿和风格化中已经提示要去掉AI味,但好像没有毛用。后续还专门在语言风格化后加了口播优化流程,也意义不大。放在朱雀AI识别的平台,稿件的AI概率都是95%-98%,😵

四月底到五月初:DeepSeek v4 来了

时间就到了四月底、五月初,在五一前发布了DeepSeek v4,起初就在发布的时候我简单的测试了一下模型能力,不少方面和GLM 5.1没太大差异。文案方面也弱于GPT 5.5,我就没特别在意。测试了几十万token后,就放在一旁了。

然后就是碰到某个国产xxxxCode工具推广,免费领DeepSeek v4 Flash用。本着试试的态度,想做一个python驱动,前端Web的全流程工具,可能是这个国产的xxxxCode工具没太抄全泄露的ClaudeCode,整个过程体验并不好,模型能力也不太行,flash的deepseek很容易碰到一个问题就卡住。这个工具做了2天,推进到写提纲的过程,就推进的困难重重。比ClaudeCode写代码的感觉也差很多。本着现在的工作流还能用,也就搁置。

5月18日:忍不了了,必须重构

直到5月18日,我看着写出的下一期的文档和做出的整篇分镜设计。就是有种不想去出图,去打开 PR 制作的感觉。我又把文案放到了朱雀 AI 里扫了一遍。嚯,这回竟然有99.9%的概率是AI文。我萌生了一个想法,一定要重构一次,而且要从根本上解决这个去AI味的问题。其实我这回玩智能体这件事本身并不是想重建整个工作流,只是为了去AI味,算是稀里糊涂做了一堆东西出来。

耗时7天,消耗1.3亿token,8个智能体

首先做的第一步,我是想要用什么工具,要怎么去梳理我的流程,去做一个什么样的东西?从25年年头开始,我就一直在用 Cherry Studio 去接各个平台的 API 然后统一去调用。

本来 Cherry Studio 也就是一个调用各个大模型的一个工具汇总接口吧。龙虾火热的时候,它也在里面内置龙虾。MCP 火热的时候,它在里面内置 MCP。它真的就是一个 AI 的大杂烩。我无意中打开了里面的智能体这一块,之前我认为它跟助手区别不大。点开才发现,它实际上是将 Claude Code 这种编码工具杂糅了 OpenClaw 龙虾这种工具,形成了一个叫智能体的玩意。什么 skill 啊,MCP 啊,斜杆命令,定时任务,心跳,全局记忆。真的是个大杂烩,啥玩意都有。

本着"打都打开了,那我就试试,试试就试试"的态度,我打算用Deepseek V4 Pro 尝试着做一下。

开始做的第一件事,其实就是梳理流程。

我建了一个叫风格讨论的智能体,我打算跟 AI 一步一步重新整理我的流程,并把我遇到的问题告诉他。他试图从我的流程的提示词的各个 Markdown 文件,一步一步向前推演,并且在整个推演过程中,一步一步把我刚刚写好的那篇文案重新做一遍试一试。

差不多我跟 AI 聊了很久,他帮我把流程重新整理为:

热点筛选 ⟶ 列提纲 ⟶ 人工写稿 ⟶ 风格诊断(循环迭代任务)⟶ 质量评估 ⟶ 产生画面(分镜)

对比来看,原来的流程是:热点筛选 ⟶ 列提纲 ⟶ 手动汇总初稿 ⟶ 写文案 ⟶ 语言风格化 ⟶ 产生画面(分镜)

可能现在从结果上看,差异不是很大。但是其实这个里面,每一步的提示词,如何使用,我需要什么样的需求,它帮我把提示词,从头到尾的完整的梳理了一遍,特别是列提纲、人工写稿跟风格诊断这一块。

现在我出来的文章,去朱雀 AI 扫一遍,能做到 5%~10% 是 AI 做的。所以平台一定判定我文章是人工写的。而且跟纯 AI 写稿的反复金句砸呀、设置网络梗呐、强制口语化来比,这种定下基调、一条线、多维度的帮我去列好提纲,让我手动自己写稿。它确实也从根本上避免了 AI 味,用 AI 写这么多次文章,我也感觉到,其实能避免文章产生 AI 味的唯一办法,就是用人写一遍。其实当文案能去掉 AI 味以后,视频在平台能给量的级别,会跟 AI 文章完全不一样。其实各个平台对 AI 生成的画面都是有容忍性的,但对稿子,如果是 AI 还是有很强的抵触的。

好,说回来,其实我发现整个流程就很流畅的,大概就两天左右跟 AI 沟通完了,并完全落地实现了。

将原来的一系列生产的 AI 助手全部更新,并且效果比原来好很多。而且用的模型也比以前便宜不少。以前基本上是 Claude Opus 或者 GPT 5.5,写一篇稿子下来,五块到十块嘛。现在整个流程里面,基本都是国产模型。有 Deepseek V4 Pro,有 GLM 5.1,还有 Kimi 2.6(质量评估)。

有且只有,最后一步生成视频封面的提示词,我一直都用 GPT 5.5,现在我试完的效果还是 GPT 5.5最好。可能是因为我那个地方用的是 GPT Image 2去生成的,所以 GPT 5.5效果好也是有相关的嘛。

整顺之后:真tm神奇

将整个工作流整顺之后呢?我很久没有这种觉得很神奇、很感慨的感觉了。

所以我继续打算就用这个智能体,把自动生图(NanoBanana),还有自动写生成 HyperFrames 的动画、自动化封面(GptImage2),都完成掉。这块就不细说了,我分别建立了不同的智能体去完成了不同的工作。因为我本来也知道要去找什么 API 文档给它塞进去,对接的非常顺利。看着写好的分镜文档塞进智能体,然后坐在电脑前,大概也就十来分钟,它可以把所有的所需要的素材全部一个个画出来。不满意的地方可以让他重画,画完了还可以统一进行去水印操作,哇太神奇了。

插个题外话。我用 NanoBanana 画完图后,本来是想做偏那种透明文档、透明图片的嘛,想想去白底。无意就发现了一种可以验证怎么去掉 NanoBanana 那个背后那个水印的一个过程,当然也是凑巧。因为我生成的图片是那种很卡通的,有大块颜色相同的。所以原理上,它就是把大块的颜色变成一个颜色。暗水印的颜色变化虽然肉眼看不出来区别,但机器是可以看出来的嘛。去掉图片上的暗水印的原理就是把那些相近的颜色抹成一样就完了。但这玩意应该只能碰到颜色块相对大的,颜色相对少的卡通图片上。你像仿真实风格的,应该还是蛮难去掉的,不过也有办法。

最后我还把这个 Cherry Studio 的上面建了像选题库整理啊,做了一个这个Github上建立的博客的自动提交的方案呐(小G),还建了一个可以跟微信连接的助手(小红),随时可以下达任务,记录个点子啊,写个博客啥的。未来我想我的自己构建那种智能体可能越来越多,AI 协助的内容可能也越来越多。一方面真的觉得挺神奇的。以前做这么多功能的东西,我不得一个月啊。这几天就搞定了。而且以前那种,我选择如果用程序来实现,我可能会想先做个软件。但是实际上现在,如果你真的只是文案上的东西,你可能做成一个智能体,就已经比自己做一个软件要方便的多。

效率对比

在智能体这一篇重构之前,我从选题到录音到做画面,可能需要两三天。然后再去 PR 把东西生产出来,又得一两天。

重构之后,我前面的这个选题,到出画面,可能一个小时就够了。再去 PR 里花个一两天的时间把它再做出来,能够极大的提升我的生产效率。而且由于大模型从原来的 Claude Code GPT 大规模使用,变成了 Deepseek 以后,命中率太牛批了。而且 Deepseek V4 这两天不是永久降价了吗?现在可能出一篇稿子,也就花了个两块钱的样子就足够了。梁圣的恩情还不完呀~

一点感想:软件 vs 智能体

通过这次多智能体迭代,我认为,如果智能体能完成的工作,完全没有必要去单独做一个软件。只用把一个智能体做好,让智能体把自己的行为存档。

如果用 Claude Code,你可能存的是 CLAUDE.md 如果用 CodeX,你可能存的是 Agents.md

而存档的这个智能体,你只要测试过,在上下文清空后,仍然能够很好的去把工作完成,就足够了呀。

再说多一点:AI 时代,人类在哪

哇,这一周的历程让我感觉很感慨,很厉害,Amazing。但同时也有一点恍惚,虽然我参与了整个过程,但是我跟以前古法编程的时候完全不一样。我只在我整个这个工作过程中,虽然也改过一点点代码,因为我毕竟还是会改代码的嘛。改的不多,改了一点点,并且我有的代码是复制过来交给 AI 让它去按照我的思路去写。但是真的我能做的工作可能就 1% 了,剩下的全部都是 AI 写代码,AI 整理流程,我就给思路,就像一个老板在指挥员工一样,真的就是老板在指挥员工。

以后可能真的只需要架构师,而计算机教学方面,我认为更偏向一个文科教育。你只用告诉要学计算机的人:这个东西是怎么构成的?有哪些方面?一些原理,比方说编程,只有顺序、选择和循环。就够了。然后告诉他怎么用 AI 编程,他就能做出来很多代码。并且随着我们整个大模型和 AI 的进化,AI 写代码终将会取代人类。

但是同样也有问题,以后那些古法程序员就没有了,对吧?这个世界上是不存在初级程序员、中级程序员的,只有架构师了。那哪天万一大模型跑不起来,比方说一个核弹把地球文明毁灭了,那人类文明还怎么重建呢?

好了,我还是该回去继续做我的视频了。

顺便聊聊为啥要做普法视频

作为一个写了十年代码的程序员,又过了法考,还打过一些官司,有直系亲属的刑事官司,有参加法考时打的劳动纠纷、知识产权纠纷等等。虽然我自己在给自己打官司的诉讼上全都赢了,但是通过普通人打官司,我还是感觉到,其实真正缺的不是你打官司的时候,要去找律师解决问题,而是你根本就不遇到官司才是最需要的。我们的社会不是一个需要打官司的社会,真正打官司的时候,往往实际上双方都输了。而让我想做普法视频的初衷也是,就将最基础、最朴素的法律观念能够扎根在大家的心中。你遇事能冷静一点,能知道怎么留存证据,能知道怎么样躲避风险,不打官司,才是普法的最终目的。希望我能成功吧

你好,世界!

这是我的第一篇博客文章 🎉

关于这个博客

这个博客使用 Material for MkDocs 构建,托管在 GitHub Pages 上。

print("Hello, World!")

路虽远,行则将至。