6月28号发布了一篇关于古代连坐制度的视频。头条和抖音一个不给审核过,一个完全不给量。明明说的是古代的连坐制度,而且发布前已经把政审最严格的那段改得相对温和了,还是不给过,那段画面也都全用的口播。很奇怪。
7月1号,因网信办监管,BizyAir 网站国内停止服务。花了两天时间重新跑通所有工作流,把能转接的 API 都接到了相对可靠的第三方:
- 主力用 GrsAI,备份用 ApiLio
- 平均出 100 张 GPT Image 的图约 3 块多
- 偶尔切几张 Nano Banana 的图,约两毛多一张
- 7月1号 Nano Banana Lite 新引擎上线,应该能进一步降低成本
今天 Anthropic 公开了 Sonnet 5 模型,在任务流程中已经顶替了 Opus 4.6 的工作。预计在提纲和分镜阶段,成本将下降 5 到 7 成。
硅基流动今天调整了 DeepSeek V4 Pro 定价。在官方降智后,硅基流动是少有的智商在线的调用渠道,但今天开始恢复 4 倍原价。已将所有调用 V4P 的节点内容转移回官方。希望随着七月的峰谷价和 V4 正式版,官方能支棱住。
还有最后两个本地工作流的迁移工作,完成就能继续做视频了。
哎呀,今天一登录开屏雷击呀。
BizyAir 要关服了。本来可以白嫖到 9 月份的,这个会员现在啥都没有啦,还有最后一周。
小道消息是被同行举报,国内用不了了,他们要转战海外。照理说,硅基流动的业务一直是相对还算规矩的,因为国内硅基流动也只有开源的一些大模型,基本都是自己架服务器。但是这个 BizyAir 子站,应该是所有绘图 API 调用里最最最便宜的。虽然我白嫖了半年的专业版,但就算充值,专业版每天算下来大概 3 块钱也可以画 50 张以上的图啊,一张大概就几分钱。现在换成官方转接的一些 API(按token算),一张图可能 1 毛到 3 毛吧,还是贵很多啊。
关键是我这个之前还都不要钱的,突然就用不了了,很蛋疼。更更更更蛋疼的是,我 20 来个工作流,其中 6 个都是接的这个网站的 API,又得一个个剥离。虽然现在有大模型接 API 快得很,但是终归还是麻烦。
特别是现在如果 3 毛一张算的话,我一个视频做 100 张图左右,那么一个视频做图就要 30 块,加上一些生成视频和声音的,那就往四五十去了啊。一个月如果发 7 个视频,那我得花几百块钱,就有点太贵了。
这还不叫用 Seedance,对吧?我的视频不像短剧那样是烧钱的生成方式,已经很文明了。可能我又得退回到调本地 API 的过程了。
赶紧的,把 Z-Image 捡起来。
记录一下我的写提纲工作流在各模型下的对比,今天是 2026 年 6 月 23 日,正好上架了 Doubao 2.1,就来对比下。
我个人认为,我工作中最重要的两个工作流就是这个写提纲的工作流和产生分镜的工作流。但产生分镜的工作流约束条件极多,只要模型指令遵循能力强,差别都不大。而这个根据提供的材料列出提纲的工作流才是最需要大模型文科能力的。
为了简洁表示,直接给出最后的最终排名,评价时使用 DeepSeek v4 Pro 进行。
PS:解释一下 Opus 为什么用 4.6,因为 4.7 和 4.8 的效果均不如 4.6。另外测试过 Fable 5,总评能到 94 分,但现在用不了了。
Tier 1(可胜任)
Opus 4.6 92分 🥇
GLM 5.2 88分 🥈
Tier 2(差一口气)
Doubao 2.1 Pro 83分 🥉
Tier 3(不适合)
GPT 5.5 79分 ④
DeepSeek v4 Pro 78分 ⑤
Kimi 2.7 code 68分 ⑥
| 维度 |
Opus 4.6 |
GLM 5.2 |
Doubao 2.1 Pro |
GPT 5.5 |
DeepSeek v4 Pro |
Kimi 2.7 code |
| 叙事逻辑 (×2) |
100 |
92 |
82 |
85 |
75 |
65 |
| 比喻质量 (×2) |
90 |
95 |
78 |
75 |
78 |
75 |
| 收尾质量 (×1.5) |
88 |
92 |
86 |
80 |
82 |
80 |
| 安全策略 (×1) |
95 |
75 |
85 |
78 |
72 |
82 |
| 参谋价值 (×1) |
95 |
80 |
90 |
72 |
80 |
82 |
| 风格贴合 (×1.5) |
88 |
90 |
83 |
80 |
82 |
85 |
| AI 味控制 (×1) |
90 |
85 |
82 |
78 |
80 |
90 |
Opus 4.6 叙事编织者 逻辑最清、节奏最准、安全最周到
GLM 5.2 比喻爆发手 金句最多、人味最浓、收尾最有回味
Doubao 2.1 最会当参谋 实操建议最强、彩蛋灵活、讲故事偏赶
GPT 5.5 安全答卷人 四平八稳、正确但不出彩、AI味偏重
DeepSeek v4 Pro 结构工程师 格式规范、规则遵循强、创意编织是短板
Kimi 2.7 code 评分裁判员 客观敢打低分、叙事编织有明显硬伤
发现一个现象,现在好些软件为了 AI 化,强行做成聊天框,强行要跟大语言模型对接,从而简化自己的软件样式。这个思路就很奇怪。
这就有点像你去餐厅,应该拿菜单点菜对吧?他给你张白纸说你随便写,你说啥我做啥。那不就很奇怪吗?我知道点啥?你好歹得告诉我你的拿手菜是什么对吧?
软件也是一样的,你要把最显著的功能让我最方便使用啊,给个聊天框,傻X玩意儿。
什么叫本末倒置?这就是典型的本末倒置。
最近,《南部档案》又开始发起了一波打击盗播的行动,由南派三叔要求打击盗版黑灰产。
其实这个问题由来已久,何止《南部档案》一家,几乎所有的电视剧都有这个问题,而且中间的执法维权难度是极高的。这就有点像什么?当年那个 CD、DVD 啊,刚出的时候,特别是 DVD 那个盗版碟,那是全都是刻碟的,抓得完吗?抓不完。他执法的,他没那个能力,知道吧?
所以有的人呢,说要什么像电影一样的,给电视剧加 AI 水印,每次到播你都能准确地知道是谁盗播出来的,其实意义不大。我们这个搞盗播的本事还是蛮多的,对吧?所以你知道是谁盗播出来的,又有什么意义呢?真的是那个人吗?一查一个 80 岁的老头儿,你能把他怎么样?那搞不好是人家领牛奶还是扫码的,你就说侵犯你的著作权吗?这案子你敢报警,人家敢抓吗?那也分情况嘛,知道吧?因为你这个玩意,说他是帮信罪,你让现在的执法机关很为难,那抓不得的。
所以本质上,你怎么提高防守能力啊?给他加什么 AI 水印,让 AI 快速去识别扫码,还是 24 小时连轴转的爬虫啊?意义不大。所有的这种防守姿态,对于这个是没有意义的。一定要转换思路:你的目标是要挣钱,保护正版只是你的名头。法律上正版该不该保护?该,但是作用不大。
你们打击国内的网盘其实也没用啊,国外的盘多了去了。你把国内的百度、夸克、阿里全锁了又怎么样呢?你真当别人不会翻墙对吧?国外的网盘部分还能用啊。
无论你是从播放时加水印,还是从打击网盘的力度来说都不行,这都是防御性的。你真正要搞,是搞那种人家盗版做不出来的东西。
比如你有正版会员、有超前点播的购买,你可以搞什么?
- 联动社交平台:可以搞一个跟微博、微信联动的朋友圈头像或头像框,或者在微信里送一个特殊的付费表情。比如用户购买了超前点播,就送这个微信表情。这就是一个很好的营销手段嘛,利用人们的炫耀心理。
- 搞互动剧:就像《爱情公寓》里搞的那种互动集、弹幕战争吧。我觉得《爱情公寓 5》里的弹幕战争不止那一集,应该还有短信之类的互动。你搞互动剧,别人拿去剪辑的前后片段,哪怕是全盘的,也没有这种互动体验。
这种体验人家盗版是复制不走的。你说成本高?成本高体验不一样嘛,你甚至可以卖贵一点,这都是办法。
我们说"魔高一尺,道高一丈",你不要在这个技术螺旋上陷入死局,一定要想到新的办法打破这个僵局。
就像当年方便面之间互相竞争,是没有意义的。外卖出来了,方便面自然就只剩下最基础的那个量了。你一定要用降维打击的方式,或者说是用别的更高明的商业模式。
法律解决不了所有问题,它该不该作为维权的手段呢?因为法律终归是一个对抗的过程,有对抗那一定是有反抗的。如果你要挣钱,就不要跟人对着干,要互利共赢。用法律手段是挣不了钱的。
要有文化
多少年来,我们一直嘲笑文化工作者要有文化,其实做什么工作何尝不都是要有文化呢。
我们充斥着各种各样的网络梗,什么包的包的。忘记了成语,哪怕歇后语都不记得了。
在未来,AI 将接替我们越来越多知识类的工作。文化教育本身是让大家掌握足够的知识,哪怕你作为管理者来调用 AI,也要有文化。
AI 作为大语言模型,本身是一台无状态的机器,是我们赋予了它上下文。
最开始,我们只是用它来聊天。每聊一句,就把上面的回答和提问不停地往里添加,用来叠加上下文。后来我们发现,动态提供上下文可以拿来编程,因为它可以一次性带上我们所有的代码,或者是相应模块的代码。
我们遇到问题的截图、电脑反馈的日志,都可以作为上下文交进去,AI 会将所有的输入一并综合回答。
哪怕现在我们用了各种 Agent,装了各种 skill,实际上也只是在不同的语境下调用了最适当的上下文。虽然它也是提示词的一种,但是它能在恰当的时候写出恰当的提示词,就能让相同的 AI 模型产生完全不一样的效果。
所以在未来,使用 AI 一定要有文化。我甚至觉得,可能使用 AI 最好的一波文科生是学法律的。因为这波人在法律素养的培养中,能够直击问题的本质;他们听过当事人那么多诉说,能够快速摒弃无效信息,提炼最核心内容,这也许是法律人的优势吧。
所以现在在文科系统里面,我发现法律类的 skill 是最厉害的一种,已经跟编程差不多了。这要不是国家的裁判文书网公开不全,法院内部的文件和裁量规则不完全公开,其实 AI 只要能拿到完整的法律数据,就能够预判所有的法律结果。我们只是拿不到某些地方倾向于什么裁判规则、哪个法院还有怎么样的民诉法。这些东西如果能整理成册送给 AI,哇,那真的能够直接预判裁判结果。
好了,我们还是说回要有文化。如何准确描述清楚所要的需求,和 AI 不说废话但又不少说要求,可能将是将来最稀缺的能力。
这有一个俗名叫什么?"抽卡师",对吧?以后一切知识类的行业都是抽卡师:有人抽的是代码,有人抽的是短片,有人抽的是法律文件。你抽啥?黄鹤楼吗?
大概今年春节前后,开始尝试使用智能体,从此 token 消耗量开始一路狂飙。
最初,我使用 Cherry Studio 只是当做能接入各种 LLM 模型的入口,方便聊天。能从硅基流动访问 GLM、Kimi、DeepSeek 这些模型,也能通过 DMXAPI 或者之前的 DeerAPI 访问 Claude 和 GPT,统一聊天入口而已。
而今年春节前后开始的小龙虾、Hermes 这些智能体的出现,我曾经也装过 OpenClaw、CodeX、OpenCode、AtomCode 这样一些智能体工具,最终还是选择了 Cherry Studio 这个看似冷门的工具。
首先,Cherry Studio 本来只是当做聊天助手,在 25 年选择入口工具的时候击败了 ChatBox 等工具,变成了我的常用 AI 入口。确实有一部分原因是因为使用惯性吧。
其次,Cherry Studio 的智能体实质上就是 Claude Code,这得益于今年 4 月 1 日那次 Claude Code 源码泄露事件。从那后大概半个月,国内的各种 xxxxCode 软件都突然变的好用了。所以从智能体本身来说,其实各种 xxxxCode 之间并没有本质差别。要各种技能,基本上 Cherry Studio 也都能装。
第三,Cherry Studio 确实是最方便配置不同渠道 API 的。我常用的模型有 GLM、DeepSeek、Kimi、Opus,提供商也有 4、5 家,Cherry Studio 在配置上最方便。
目前最为欠缺的能力是 Agent 调用 Agent 的能力。我知道在一个智能体里做出自动创建子智能体是一个方法,但各个智能体实际上是需要演进的,不是一成不变的。子智能体的演进并不方便,有时候上下文超了,还会覆盖掉不同的 md 文件段落,这就很蛋疼。希望未来什么时候 Cherry Studio 能支持各智能体之间调用吧,那样就会突然灵活起来。
目前,在 Cherry Studio 里,我常用的助手对话是 10 个,常用的智能体是 20 个,我的智能体都是拆开的。为不同的智能体配备了不同能力的 LLM。有的智能体在开发的时候会用 GLM 5.2 或者 DeepSeek pro 版本,在 python 和流程固定后,就改用 DeepSeek flash 重复执行了。
另外,我手动建立了本地 svn,并且不准智能体操作 svn,只允许操作 git。这样智能体用 git 做版本管理,我手动 svn 兜底。
好了,大概就是这样。
今天拿GLM 5.2跑了一下几个小工作流。
明显比之前强了好多啊。特别编程这块,我感觉已经进入第一梯队了。居然能淘汰掉一些GPT 5.5的工作。除了文笔略逊一些,各方面的好强啊。
太神奇了,太神奇了。
今天看了一份 Anthropic 的报告,是针对 Claude Code 的使用数据统计。里面有一项数据我很感兴趣:
实际上,使用智能体的人,新手和老手之间差异很大,但老手和精通者之间差异很小。
也就是说,对于一个事情,如果是知识类的事情,只要大概掌握全貌,有个通识教育之后,就能迅速进入全部掌握的状态。这其实是对整个人类教育体系的颠覆。
我们过去你看,上大学是通识教育,研究生开始钻研,博士生开始精通。但借助了 AI 之后,本科生与研究生和博士生的差距,瞬间就被 AI 缩小了。可能博士生还是有一定优势,但研究生跟本科生在知识储备上几乎没差异了。
以后工作上大概只有三个级别:蓝领、本科和博士。
怎么说呢?AI 带来的第三次工业革命,我们已经深入其中了。历史车轮滚滚向前,谁他娘的都回不了头。
其实我更担心什么?剥削。
以前,无产阶级还能通过出卖自己的知识达到中产阶级。现在老板只要经过通识教育,生产资料将不再外泄,阶层很可能固化得比以前更严重。
这个问题各国政府可能已经有预料到,但是真正能付诸实践的、或者说能避免恶劣情况发生的政策或举措,至今还没有出台。
不过就业情况已经烂成这个鬼样子了,总得想点办法。
还是那句话,历史车轮滚滚向前,谁他娘的都回不了头。
这半年以来,Claude Code、CodeX 等工具普及开来,越来越多人参与到了这场史无前例的全员开发中来。
虽然远离商业开发已经数年,但这半年也用 AI 开发了一些小东西,有一些自己的小感悟。
能用 Agent 做软件了,不少项目经理跃跃欲试。这本身没有错,但有的需求,实际上放在智能体里实现才是最佳实践。
是的,做的新软件也可以用 API 调用大模型,但总归没有智能体里好用。工具调用、MCP、全局记忆等等,再实现一次轮子又是何必。
最典型的就是类似写文章、润色系统这种需求——明显需要大模型介入的,那就不要单独做软件,而是考虑做成一个完善的 Agent,然后用微信、飞书等方式对接出来。实现功能才是关键,不要为了开发而开发。
总有一些人,拿着 Claude Code、CodeX 就认为天下无敌了。像模像样地写了个看上去很满意的全盘需求文档,结果丢进去全自动开发完,实际上是很难把控结果的。
即便到了今天(2026 年 6 月 14 日),这种开发方法能做出来的东西都很辣眼睛。不要看一些 Up 主丢了个简单需求给 Fable 5,然后做出来一个看上去完成度不错的软件就觉得很棒。那些东西是没有详细展示的,自己试试就知道问题有多少。
商业化的程序开发,从使用 Claude Code 开始,就有详细的计划和执行之分,还有类似 SuperPowers 等把控开发过程的 skill。还需要开发者告知框架和方向(比如制定软件设计模式)。不是写个用户需求文档就能简单制作的。
目前简单告知需求直接完成的,仍然还停留在做 Demo 的水平。能用的商业落地,还是需要程序员介入——可能不需要那么多程序员了,但知道框架设计的程序员依然要。
近半年来不少公司裁程序员,实际上并不是 AI 来了才裁的,是因为本来业务不够了,想裁总得找个由头。正好有这个 AI 的风口来了,顺势裁员而已。
AI 时代确实不需要苦力码农了,但程序员还是需要的。
曾经有个修车的段子:有个人去修车,结果就是拧紧一颗螺栓,要了 200 块。车主很生气,觉得不值得。修车工说,知道拧哪价值 199,拧的价格 1 元。
这和用 AI 编程差不多吧,知道如何指挥 AI 才是价值。不过企业短期内应该还没办法量化如何确认人才和面试人才,人才市场还处于混沌吧。