跳转至

Blog

模型对比-提纲工作流

这是什么

记录一下我的写提纲工作流在各模型下的对比,今天是 2026 年 6 月 23 日,正好上架了 Doubao 2.1,就来对比下。

我个人认为,我工作中最重要的两个工作流就是这个写提纲的工作流和产生分镜的工作流。但产生分镜的工作流约束条件极多,只要模型指令遵循能力强,差别都不大。而这个根据提供的材料列出提纲的工作流才是最需要大模型文科能力的。

为了简洁表示,直接给出最后的最终排名,评价时使用 DeepSeek v4 Pro 进行。

PS:解释一下 Opus 为什么用 4.6,因为 4.7 和 4.8 的效果均不如 4.6。另外测试过 Fable 5,总评能到 94 分,但现在用不了了。

最终排名

Tier 1(可胜任)
  Opus 4.6              92分  🥇
  GLM 5.2               88分  🥈

Tier 2(差一口气)
  Doubao 2.1 Pro        83分  🥉

Tier 3(不适合)
  GPT 5.5               79分  ④
  DeepSeek v4 Pro       78分  ⑤
  Kimi 2.7 code         68分  ⑥
维度 Opus 4.6 GLM 5.2 Doubao 2.1 Pro GPT 5.5 DeepSeek v4 Pro Kimi 2.7 code
叙事逻辑 (×2) 100 92 82 85 75 65
比喻质量 (×2) 90 95 78 75 78 75
收尾质量 (×1.5) 88 92 86 80 82 80
安全策略 (×1) 95 75 85 78 72 82
参谋价值 (×1) 95 80 90 72 80 82
风格贴合 (×1.5) 88 90 83 80 82 85
AI 味控制 (×1) 90 85 82 78 80 90

六模型能力画像

Opus 4.6        叙事编织者    逻辑最清、节奏最准、安全最周到
GLM 5.2         比喻爆发手    金句最多、人味最浓、收尾最有回味
Doubao 2.1      最会当参谋    实操建议最强、彩蛋灵活、讲故事偏赶
GPT 5.5         安全答卷人    四平八稳、正确但不出彩、AI味偏重
DeepSeek v4 Pro 结构工程师    格式规范、规则遵循强、创意编织是短板
Kimi 2.7 code   评分裁判员    客观敢打低分、叙事编织有明显硬伤

本末倒置

发现一个现象,现在好些软件为了 AI 化,强行做成聊天框,强行要跟大语言模型对接,从而简化自己的软件样式。这个思路就很奇怪。

这就有点像你去餐厅,应该拿菜单点菜对吧?他给你张白纸说你随便写,你说啥我做啥。那不就很奇怪吗?我知道点啥?你好歹得告诉我你的拿手菜是什么对吧?

软件也是一样的,你要把最显著的功能让我最方便使用啊,给个聊天框,傻X玩意儿。

什么叫本末倒置?这就是典型的本末倒置。

电视剧盗版问题

最近,《南部档案》又开始发起了一波打击盗播的行动,由南派三叔要求打击盗版黑灰产。

其实这个问题由来已久,何止《南部档案》一家,几乎所有的电视剧都有这个问题,而且中间的执法维权难度是极高的。这就有点像什么?当年那个 CD、DVD 啊,刚出的时候,特别是 DVD 那个盗版碟,那是全都是刻碟的,抓得完吗?抓不完。他执法的,他没那个能力,知道吧?

所以有的人呢,说要什么像电影一样的,给电视剧加 AI 水印,每次到播你都能准确地知道是谁盗播出来的,其实意义不大。我们这个搞盗播的本事还是蛮多的,对吧?所以你知道是谁盗播出来的,又有什么意义呢?真的是那个人吗?一查一个 80 岁的老头儿,你能把他怎么样?那搞不好是人家领牛奶还是扫码的,你就说侵犯你的著作权吗?这案子你敢报警,人家敢抓吗?那也分情况嘛,知道吧?因为你这个玩意,说他是帮信罪,你让现在的执法机关很为难,那抓不得的。

所以本质上,你怎么提高防守能力啊?给他加什么 AI 水印,让 AI 快速去识别扫码,还是 24 小时连轴转的爬虫啊?意义不大。所有的这种防守姿态,对于这个是没有意义的。一定要转换思路:你的目标是要挣钱,保护正版只是你的名头。法律上正版该不该保护?该,但是作用不大。

你们打击国内的网盘其实也没用啊,国外的盘多了去了。你把国内的百度、夸克、阿里全锁了又怎么样呢?你真当别人不会翻墙对吧?国外的网盘部分还能用啊。

无论你是从播放时加水印,还是从打击网盘的力度来说都不行,这都是防御性的。你真正要搞,是搞那种人家盗版做不出来的东西。

比如你有正版会员、有超前点播的购买,你可以搞什么?

  1. 联动社交平台:可以搞一个跟微博、微信联动的朋友圈头像或头像框,或者在微信里送一个特殊的付费表情。比如用户购买了超前点播,就送这个微信表情。这就是一个很好的营销手段嘛,利用人们的炫耀心理。
  2. 搞互动剧:就像《爱情公寓》里搞的那种互动集、弹幕战争吧。我觉得《爱情公寓 5》里的弹幕战争不止那一集,应该还有短信之类的互动。你搞互动剧,别人拿去剪辑的前后片段,哪怕是全盘的,也没有这种互动体验。

这种体验人家盗版是复制不走的。你说成本高?成本高体验不一样嘛,你甚至可以卖贵一点,这都是办法。

我们说"魔高一尺,道高一丈",你不要在这个技术螺旋上陷入死局,一定要想到新的办法打破这个僵局。

就像当年方便面之间互相竞争,是没有意义的。外卖出来了,方便面自然就只剩下最基础的那个量了。你一定要用降维打击的方式,或者说是用别的更高明的商业模式。

法律解决不了所有问题,它该不该作为维权的手段呢?因为法律终归是一个对抗的过程,有对抗那一定是有反抗的。如果你要挣钱,就不要跟人对着干,要互利共赢。用法律手段是挣不了钱的。

要有文化

要有文化

多少年来,我们一直嘲笑文化工作者要有文化,其实做什么工作何尝不都是要有文化呢。

我们充斥着各种各样的网络梗,什么包的包的。忘记了成语,哪怕歇后语都不记得了。

在未来,AI 将接替我们越来越多知识类的工作。文化教育本身是让大家掌握足够的知识,哪怕你作为管理者来调用 AI,也要有文化。

AI 作为大语言模型,本身是一台无状态的机器,是我们赋予了它上下文。

最开始,我们只是用它来聊天。每聊一句,就把上面的回答和提问不停地往里添加,用来叠加上下文。后来我们发现,动态提供上下文可以拿来编程,因为它可以一次性带上我们所有的代码,或者是相应模块的代码。

我们遇到问题的截图、电脑反馈的日志,都可以作为上下文交进去,AI 会将所有的输入一并综合回答。

哪怕现在我们用了各种 Agent,装了各种 skill,实际上也只是在不同的语境下调用了最适当的上下文。虽然它也是提示词的一种,但是它能在恰当的时候写出恰当的提示词,就能让相同的 AI 模型产生完全不一样的效果。

所以在未来,使用 AI 一定要有文化。我甚至觉得,可能使用 AI 最好的一波文科生是学法律的。因为这波人在法律素养的培养中,能够直击问题的本质;他们听过当事人那么多诉说,能够快速摒弃无效信息,提炼最核心内容,这也许是法律人的优势吧。

所以现在在文科系统里面,我发现法律类的 skill 是最厉害的一种,已经跟编程差不多了。这要不是国家的裁判文书网公开不全,法院内部的文件和裁量规则不完全公开,其实 AI 只要能拿到完整的法律数据,就能够预判所有的法律结果。我们只是拿不到某些地方倾向于什么裁判规则、哪个法院还有怎么样的民诉法。这些东西如果能整理成册送给 AI,哇,那真的能够直接预判裁判结果。

好了,我们还是说回要有文化。如何准确描述清楚所要的需求,和 AI 不说废话但又不少说要求,可能将是将来最稀缺的能力。

这有一个俗名叫什么?"抽卡师",对吧?以后一切知识类的行业都是抽卡师:有人抽的是代码,有人抽的是短片,有人抽的是法律文件。你抽啥?黄鹤楼吗?

为什么选择 Cherry Studio

大概今年春节前后,开始尝试使用智能体,从此 token 消耗量开始一路狂飙。

最初,我使用 Cherry Studio 只是当做能接入各种 LLM 模型的入口,方便聊天。能从硅基流动访问 GLM、Kimi、DeepSeek 这些模型,也能通过 DMXAPI 或者之前的 DeerAPI 访问 Claude 和 GPT,统一聊天入口而已。

而今年春节前后开始的小龙虾、Hermes 这些智能体的出现,我曾经也装过 OpenClaw、CodeX、OpenCode、AtomCode 这样一些智能体工具,最终还是选择了 Cherry Studio 这个看似冷门的工具。

首先,Cherry Studio 本来只是当做聊天助手,在 25 年选择入口工具的时候击败了 ChatBox 等工具,变成了我的常用 AI 入口。确实有一部分原因是因为使用惯性吧。

其次,Cherry Studio 的智能体实质上就是 Claude Code,这得益于今年 4 月 1 日那次 Claude Code 源码泄露事件。从那后大概半个月,国内的各种 xxxxCode 软件都突然变的好用了。所以从智能体本身来说,其实各种 xxxxCode 之间并没有本质差别。要各种技能,基本上 Cherry Studio 也都能装。

第三,Cherry Studio 确实是最方便配置不同渠道 API 的。我常用的模型有 GLM、DeepSeek、Kimi、Opus,提供商也有 4、5 家,Cherry Studio 在配置上最方便。

目前最为欠缺的能力是 Agent 调用 Agent 的能力。我知道在一个智能体里做出自动创建子智能体是一个方法,但各个智能体实际上是需要演进的,不是一成不变的。子智能体的演进并不方便,有时候上下文超了,还会覆盖掉不同的 md 文件段落,这就很蛋疼。希望未来什么时候 Cherry Studio 能支持各智能体之间调用吧,那样就会突然灵活起来。

目前,在 Cherry Studio 里,我常用的助手对话是 10 个,常用的智能体是 20 个,我的智能体都是拆开的。为不同的智能体配备了不同能力的 LLM。有的智能体在开发的时候会用 GLM 5.2 或者 DeepSeek pro 版本,在 python 和流程固定后,就改用 DeepSeek flash 重复执行了。

另外,我手动建立了本地 svn,并且不准智能体操作 svn,只允许操作 git。这样智能体用 git 做版本管理,我手动 svn 兜底。

好了,大概就是这样。