Blog¶

2026/07/18
需要 1 分钟阅读时间

华为昇腾950：中国AI战争的基础设施

之前家里的光纤断了，因为我们的光纤不是牵电信的，所以要单独买一捆自己牵。武汉的天又热，我牵完之后还瘫了两三天，太累了，所以搞得像消失了半个月。不过现在我终于回来了。

这两天，华为的昇腾950的集群亮相人工智能大会。哇，太厉害了！完全是换了一个套路，乱拳打死老师傅。就是因为华为的这个机会，我认为中国几乎已经赢下了这轮AI战争。

好，我跟你讲字面上的参数吧。华为这套机柜今年发布的是最大 8192 卡统一内存，同期比英伟达 72 卡的机柜算力高 16 倍，能用的统一内存就更多了。也就是说，华为并没有更先进的制程，但是华为有更先进的通讯技术。这个统一内存、统一架构，虽然单卡算力不强，但足以支撑推理、训练等各环节的模式。因为如果你平常在本地跑过一些大模型，就会知道大模型对 GPU 算力的占用其实没多高，除非是并发推理占满的时候。在并发时，它对显存的要求很高，特别是当上下文达到 1M 时，KV Cache 涨得非常非常快，反而对显存和带宽有要求。这个时候，考验的其实是多卡通讯技术，对吧？华为在这方面就有巨大优势。

智能涌现与统一内存路线

从另一方面来讲，在 GPT 刚刚开始惊艳我们的时候，其实就是算力突破了某个量级，产生了一种叫"智能涌现"的情况。你可以认为，当参数累积到一个量级，量变引起了质变，看上去突破了智力的边界，能够通过图灵测试。目前我们的整个大模型能力虽然在增强，但总体上来讲，还是在上次涌现的平台上。可能到下一次更大的突破，还需要累积到另一个量级才能涌现出来。当然也不一定有，这没谁说得准。但是华为目前堵这条路，就是堵我的统一内存大。我能用通信技术覆盖掉你的单卡算力优势，就像苹果用统一内存代替显存，导致 Mac Mini 可以做统一推理是一样的。

生态验证：DeepSeek 与智谱

中国因为有了华为这整套硬件的基础，而且华为这套系统其实已经给智谱和深度求索用过，GLM 和 DeepSeek 都已经验证在这套系统上是可行的。所以 4 月份的时候，DeepSeek 当时就说，等到华为 950 节点大规模上线的时候，他们将大幅降低价格。这肯定是因为当时已经测试过了，所以 DeepSeek 才把价格一直写得这么低。可能在 4 月份到 6 月份期间，他们算力不足，是在贴钱做，甚至 6 月份明显的"降智"可能就是算力的原因。但是到 7 月中下旬、8 月份的时候，等到算力大规模上线，我估计 DeepSeek V4 的正式版能够还原到当时 4 月底的能力。这都是华为这套硬件的功劳，也就是奠定了中国人工智能如果能胜利的最底层基础。

经济学与持久战

从经济学上来说，哪怕中国的大模型只能做到顶尖大模型 80% 的能力，它就能把 80% 甚至 90% 的钱赚走。因为我们更多的业务场景不需要那么高的智能，留给国外顶尖模型的生存空间就只剩 10%~20%。它花了那么贵的价格去做整个系统搭建和模型训练，价格永远是高高在上的。在经济学上它注定吃亏，亏着亏着钱总有烧干的一天。

我相信中国人是不怕打持久战的。华为在做这套机器、构建整套系统的时候，很多地方的成本就已经打下来了，国家是一定介入过的。它不像英伟达这种纯商业的公司，要计算商业上的得失。所以在搭建硬件系统的时候，成本可能就只有美方的 1/10 甚至 1%。从中美军费的相对开销来讲，你就能看得出来，美国一个马桶可能都几千美元，这在中国来讲是不可想象的，一个马桶可能几十块上百块就能采购回来。所以硬件上，华为只要能做出来足以对抗英伟达的产品——甚至目前从华为这套技术路径、技术路线演进来说，它比英伟达的效果还要好——硬件上就已经奠定基础了。

软件层面：Kimi k3

最近软件上，前几天发的 Kimi k3，它基本上已经到达目前公开可用大模型的"SOTA"，它跟 Fable 5 只差一点点，跟 GPT-5.6 sol版本相差无几，而且这还只是 Kimi k3 的第一个版本。我们知道 Kimi 的预训练数据和能力都很好，它的后训练相对差一点，但是可能发展到 Kimi 3.2 甚至 3.5 的时候，这个模型就能超过目前的 Fable 5。而且目前的这个模型能力已经极佳，这还仅仅是中国的大模型公司之一。在同期我们看之前在同样做 1T 大模型的时候，GEMINI 明显是比 Kimi 做得好的，DeepSeek 也不差，当然 DeepSeek 更偏文科一点。

所以我判断，中国基本已经打赢 AI 战争。

2026/07/07
需要 1 分钟阅读时间

AI是程序员的抖音

突然想到了一个比喻：现在的 AI 其实就是程序员的抖音，它会让程序员慢慢地丧失自己的判断力。

随着大模型的不断进化，我们对 AI 提出的需求可以越来越抽象，AI 就能吐出相应的代码。虽然详细的需求文档和设计框架，可以让 AI 写代码变得更准确。但是随着大模型能力的提升，越来越大比例的程序员对 AI 提出代码越来越抽象，甚至在 AI 调试的时候还会去骂它。

你想想，以前这种人是谁？他甚至不是策划，也不是程序员的领导，也不是项目经理，是他妈的老板。只有老板才会在公司里骂人。我们以前总是吐槽老板，这也不懂，那也不懂，瞎 JB 指挥。回旋镖总会扎回到程序员身上。

而且由于这种 AI 写代码写得快，完成简单任务特别快，是不是就类似于看抖音视频，爽感来得特别快，过程中自己根本就不用带脑子。有人把 AI 写代码比成吸毒，我觉得也挺准确的。

而且，大规模程序员的工作本身可能并不复杂，类似于老板输入语言需求，AI 代码就能完成。这会导致我们的社会以后出现什么？通过小项目逐步历练的程序员越来越少，因为这种机会没有了。经历过大项目、知道自己要搭架构的程序员越来越少，因为他们会老、会退休、会死。

也许很多人并没有意识到，软件的后期维护其实是很占成本的，他们更在意当下快速完成工作。我记得我在创游呢，我自己感觉我最牛逼的一点就是，我碰到什么样的问题，直觉上都能反映出大概是哪儿的问题。我的 bug 定位非常非常快，我相信绝大多数能编程的程序员都有类似的能力。

所以即便在 AI 时代写代码可以很快，但是我仍然想，如果能够让程序员本身知道自己写了什么、有什么架构，这才是 AI 时代程序员本身应该具备的能力。他应该保持自己的判断力，而不应该将一切都交给 AI。AI 不能取代人的脑子，它只是一个基于概率推算的编程工具。

2026/07/04
需要 1 分钟阅读时间

重新开工

前前后后折腾了差不多五六天，终于把所有的工具整备到可以重新开工状态了。

工作流

数字人方面，本地跑通了，但实在太慢——差不多 1 秒画面要 200 多秒渲染。45 秒的口播就要至少 2.5 小时，本地推理期间电脑还不能干别的事，完全不可接受。暂时把这个工作迁到 RunningHub 上，每秒开销大约 80 秒，而且可以交给智能体跑，至少电脑腾出来了。

BGM 方面，从 AI 生成改为了固定 10 首曲目。一来 BGM 质量有保证，二来能形成统一的风格。这块也能省不少事。

差不多 7 月 2 号，工作流就彻底弄完了。

系统升级

但我突然发现 PR 提示 Win10 不再支持了。犹豫了一下，还是升级到了 Win11。调整了很久开始菜单，终于把排列能看过去了。

升级到 Win11 后，愕然发现 Windows 里面很多操作竟然变流畅了，很诡异——说好了 Win10 消耗性能更少的呢？查了一下，大概是 Win11 对固态有特殊优化。

CherryStudio

最后在 7 月 4 号尝试了一下 CherryStudio v2 的内测版。这个版本主推智能体功能，并重构了数据底层，确实命中我的需求——我一直都说 CherryStudio 提供的功能过于纷杂。思路都是对的，但由于是测试版本，问题不少：极其卡顿、界面渲染问题频出、拖入文本解析也不给结果。生产环境暂时不能用，先还原回 1.9.11 了。

2026/07/01
需要 1 分钟阅读时间

多事之夏

连坐制度视频被限

6月28号发布了一篇关于古代连坐制度的视频。头条和抖音一个不给审核过，一个完全不给量。明明说的是古代的连坐制度，而且发布前已经把政审最严格的那段改得相对温和了，还是不给过，那段画面也都全用的口播。很奇怪。

BizyAir 国内停止服务

7月1号，因网信办监管，BizyAir 网站国内停止服务。花了两天时间重新跑通所有工作流，把能转接的 API 都接到了相对可靠的第三方：

主力用 GrsAI，备份用 ApiLio
平均出 100 张 GPT Image 的图约 3 块多
偶尔切几张 Nano Banana 的图，约两毛多一张
7月1号 Nano Banana Lite 新引擎上线，应该能进一步降低成本

Anthropic Sonnet 5

今天 Anthropic 公开了 Sonnet 5 模型，在任务流程中已经顶替了 Opus 4.6 的工作。预计在提纲和分镜阶段，成本将下降 5 到 7 成。

硅基流动调价

硅基流动今天调整了 DeepSeek V4 Pro 定价。在官方降智后，硅基流动是少有的智商在线的调用渠道，但今天开始恢复 4 倍原价。已将所有调用 V4P 的节点内容转移回官方。希望随着七月的峰谷价和 V4 正式版，官方能支棱住。

还有最后两个本地工作流的迁移工作，完成就能继续做视频了。

2026/06/23
需要 1 分钟阅读时间

BizyAir关服有感

哎呀，今天一登录开屏雷击呀。

BizyAir 要关服了。本来可以白嫖到 9 月份的，这个会员现在啥都没有啦，还有最后一周。

小道消息是被同行举报，国内用不了了，他们要转战海外。照理说，硅基流动的业务一直是相对还算规矩的，因为国内硅基流动也只有开源的一些大模型，基本都是自己架服务器。但是这个 BizyAir 子站，应该是所有绘图 API 调用里最最最便宜的。虽然我白嫖了半年的专业版，但就算充值，专业版每天算下来大概 3 块钱也可以画 50 张以上的图啊，一张大概就几分钱。现在换成官方转接的一些 API（按token算），一张图可能 1 毛到 3 毛吧，还是贵很多啊。

关键是我这个之前还都不要钱的，突然就用不了了，很蛋疼。更更更更蛋疼的是，我 20 来个工作流，其中 6 个都是接的这个网站的 API，又得一个个剥离。虽然现在有大模型接 API 快得很，但是终归还是麻烦。

特别是现在如果 3 毛一张算的话，我一个视频做 100 张图左右，那么一个视频做图就要 30 块，加上一些生成视频和声音的，那就往四五十去了啊。一个月如果发 7 个视频，那我得花几百块钱，就有点太贵了。

这还不叫用 Seedance，对吧？我的视频不像短剧那样是烧钱的生成方式，已经很文明了。可能我又得退回到调本地 API 的过程了。

赶紧的，把 Z-Image 捡起来。

2026/06/23
需要 1 分钟阅读时间

模型对比-提纲工作流

这是什么

记录一下我的写提纲工作流在各模型下的对比，今天是 2026 年 6 月 23 日，正好上架了 Doubao 2.1，就来对比下。

我个人认为，我工作中最重要的两个工作流就是这个写提纲的工作流和产生分镜的工作流。但产生分镜的工作流约束条件极多，只要模型指令遵循能力强，差别都不大。而这个根据提供的材料列出提纲的工作流才是最需要大模型文科能力的。

为了简洁表示，直接给出最后的最终排名，评价时使用 DeepSeek v4 Pro 进行。

PS：解释一下 Opus 为什么用 4.6，因为 4.7 和 4.8 的效果均不如 4.6。另外测试过 Fable 5，总评能到 94 分，但现在用不了了。

最终排名

Tier 1（可胜任）
  Opus 4.6              92分  🥇
  GLM 5.2               88分  🥈

Tier 2（差一口气）
  Doubao 2.1 Pro        83分  🥉

Tier 3（不适合）
  GPT 5.5               79分  ④
  DeepSeek v4 Pro       78分  ⑤
  Kimi 2.7 code         68分  ⑥

维度	Opus 4.6	GLM 5.2	Doubao 2.1 Pro	GPT 5.5	DeepSeek v4 Pro	Kimi 2.7 code
叙事逻辑 (×2)	100	92	82	85	75	65
比喻质量 (×2)	90	95	78	75	78	75
收尾质量 (×1.5)	88	92	86	80	82	80
安全策略 (×1)	95	75	85	78	72	82
参谋价值 (×1)	95	80	90	72	80	82
风格贴合 (×1.5)	88	90	83	80	82	85
AI 味控制 (×1)	90	85	82	78	80	90

六模型能力画像

Opus 4.6        叙事编织者    逻辑最清、节奏最准、安全最周到
GLM 5.2         比喻爆发手    金句最多、人味最浓、收尾最有回味
Doubao 2.1      最会当参谋    实操建议最强、彩蛋灵活、讲故事偏赶
GPT 5.5         安全答卷人    四平八稳、正确但不出彩、AI味偏重
DeepSeek v4 Pro 结构工程师    格式规范、规则遵循强、创意编织是短板
Kimi 2.7 code   评分裁判员    客观敢打低分、叙事编织有明显硬伤

2026/06/22
需要 1 分钟阅读时间

本末倒置

发现一个现象，现在好些软件为了 AI 化，强行做成聊天框，强行要跟大语言模型对接，从而简化自己的软件样式。这个思路就很奇怪。

这就有点像你去餐厅，应该拿菜单点菜对吧？他给你张白纸说你随便写，你说啥我做啥。那不就很奇怪吗？我知道点啥？你好歹得告诉我你的拿手菜是什么对吧？

软件也是一样的，你要把最显著的功能让我最方便使用啊，给个聊天框，傻X玩意儿。

什么叫本末倒置？这就是典型的本末倒置。

2026/06/22
需要 1 分钟阅读时间

电视剧盗版问题

最近，《南部档案》又开始发起了一波打击盗播的行动，由南派三叔要求打击盗版黑灰产。

其实这个问题由来已久，何止《南部档案》一家，几乎所有的电视剧都有这个问题，而且中间的执法维权难度是极高的。这就有点像什么？当年那个 CD、DVD 啊，刚出的时候，特别是 DVD 那个盗版碟，那是全都是刻碟的，抓得完吗？抓不完。他执法的，他没那个能力，知道吧？

所以有的人呢，说要什么像电影一样的，给电视剧加 AI 水印，每次到播你都能准确地知道是谁盗播出来的，其实意义不大。我们这个搞盗播的本事还是蛮多的，对吧？所以你知道是谁盗播出来的，又有什么意义呢？真的是那个人吗？一查一个 80 岁的老头儿，你能把他怎么样？那搞不好是人家领牛奶还是扫码的，你就说侵犯你的著作权吗？这案子你敢报警，人家敢抓吗？那也分情况嘛，知道吧？因为你这个玩意，说他是帮信罪，你让现在的执法机关很为难，那抓不得的。

所以本质上，你怎么提高防守能力啊？给他加什么 AI 水印，让 AI 快速去识别扫码，还是 24 小时连轴转的爬虫啊？意义不大。所有的这种防守姿态，对于这个是没有意义的。一定要转换思路：你的目标是要挣钱，保护正版只是你的名头。法律上正版该不该保护？该，但是作用不大。

你们打击国内的网盘其实也没用啊，国外的盘多了去了。你把国内的百度、夸克、阿里全锁了又怎么样呢？你真当别人不会翻墙对吧？国外的网盘部分还能用啊。

无论你是从播放时加水印，还是从打击网盘的力度来说都不行，这都是防御性的。你真正要搞，是搞那种人家盗版做不出来的东西。

比如你有正版会员、有超前点播的购买，你可以搞什么？

联动社交平台：可以搞一个跟微博、微信联动的朋友圈头像或头像框，或者在微信里送一个特殊的付费表情。比如用户购买了超前点播，就送这个微信表情。这就是一个很好的营销手段嘛，利用人们的炫耀心理。
搞互动剧：就像《爱情公寓》里搞的那种互动集、弹幕战争吧。我觉得《爱情公寓 5》里的弹幕战争不止那一集，应该还有短信之类的互动。你搞互动剧，别人拿去剪辑的前后片段，哪怕是全盘的，也没有这种互动体验。

这种体验人家盗版是复制不走的。你说成本高？成本高体验不一样嘛，你甚至可以卖贵一点，这都是办法。

我们说"魔高一尺，道高一丈"，你不要在这个技术螺旋上陷入死局，一定要想到新的办法打破这个僵局。

就像当年方便面之间互相竞争，是没有意义的。外卖出来了，方便面自然就只剩下最基础的那个量了。你一定要用降维打击的方式，或者说是用别的更高明的商业模式。

法律解决不了所有问题，它该不该作为维权的手段呢？因为法律终归是一个对抗的过程，有对抗那一定是有反抗的。如果你要挣钱，就不要跟人对着干，要互利共赢。用法律手段是挣不了钱的。

2026/06/22
需要 1 分钟阅读时间

要有文化

多少年来，我们一直嘲笑文化工作者要有文化，其实做什么工作何尝不都是要有文化呢。

我们充斥着各种各样的网络梗，什么包的包的。忘记了成语，哪怕歇后语都不记得了。

在未来，AI 将接替我们越来越多知识类的工作。文化教育本身是让大家掌握足够的知识，哪怕你作为管理者来调用 AI，也要有文化。

AI 作为大语言模型，本身是一台无状态的机器，是我们赋予了它上下文。

最开始，我们只是用它来聊天。每聊一句，就把上面的回答和提问不停地往里添加，用来叠加上下文。后来我们发现，动态提供上下文可以拿来编程，因为它可以一次性带上我们所有的代码，或者是相应模块的代码。

我们遇到问题的截图、电脑反馈的日志，都可以作为上下文交进去，AI 会将所有的输入一并综合回答。

哪怕现在我们用了各种 Agent，装了各种 skill，实际上也只是在不同的语境下调用了最适当的上下文。虽然它也是提示词的一种，但是它能在恰当的时候写出恰当的提示词，就能让相同的 AI 模型产生完全不一样的效果。

所以在未来，使用 AI 一定要有文化。我甚至觉得，可能使用 AI 最好的一波文科生是学法律的。因为这波人在法律素养的培养中，能够直击问题的本质；他们听过当事人那么多诉说，能够快速摒弃无效信息，提炼最核心内容，这也许是法律人的优势吧。

所以现在在文科系统里面，我发现法律类的 skill 是最厉害的一种，已经跟编程差不多了。这要不是国家的裁判文书网公开不全，法院内部的文件和裁量规则不完全公开，其实 AI 只要能拿到完整的法律数据，就能够预判所有的法律结果。我们只是拿不到某些地方倾向于什么裁判规则、哪个法院还有怎么样的民诉法。这些东西如果能整理成册送给 AI，哇，那真的能够直接预判裁判结果。

好了，我们还是说回要有文化。如何准确描述清楚所要的需求，和 AI 不说废话但又不少说要求，可能将是将来最稀缺的能力。

这有一个俗名叫什么？"抽卡师"，对吧？以后一切知识类的行业都是抽卡师：有人抽的是代码，有人抽的是短片，有人抽的是法律文件。你抽啥？黄鹤楼吗？

2026/06/20
需要 1 分钟阅读时间

为什么选择 Cherry Studio

大概今年春节前后，开始尝试使用智能体，从此 token 消耗量开始一路狂飙。

最初，我使用 Cherry Studio 只是当做能接入各种 LLM 模型的入口，方便聊天。能从硅基流动访问 GLM、Kimi、DeepSeek 这些模型，也能通过 DMXAPI 或者之前的 DeerAPI 访问 Claude 和 GPT，统一聊天入口而已。

而今年春节前后开始的小龙虾、Hermes 这些智能体的出现，我曾经也装过 OpenClaw、CodeX、OpenCode、AtomCode 这样一些智能体工具，最终还是选择了 Cherry Studio 这个看似冷门的工具。

首先，Cherry Studio 本来只是当做聊天助手，在 25 年选择入口工具的时候击败了 ChatBox 等工具，变成了我的常用 AI 入口。确实有一部分原因是因为使用惯性吧。

其次，Cherry Studio 的智能体实质上就是 Claude Code，这得益于今年 4 月 1 日那次 Claude Code 源码泄露事件。从那后大概半个月，国内的各种 xxxxCode 软件都突然变的好用了。所以从智能体本身来说，其实各种 xxxxCode 之间并没有本质差别。要各种技能，基本上 Cherry Studio 也都能装。

第三，Cherry Studio 确实是最方便配置不同渠道 API 的。我常用的模型有 GLM、DeepSeek、Kimi、Opus，提供商也有 4、5 家，Cherry Studio 在配置上最方便。

目前最为欠缺的能力是 Agent 调用 Agent 的能力。我知道在一个智能体里做出自动创建子智能体是一个方法，但各个智能体实际上是需要演进的，不是一成不变的。子智能体的演进并不方便，有时候上下文超了，还会覆盖掉不同的 md 文件段落，这就很蛋疼。希望未来什么时候 Cherry Studio 能支持各智能体之间调用吧，那样就会突然灵活起来。

目前，在 Cherry Studio 里，我常用的助手对话是 10 个，常用的智能体是 20 个，我的智能体都是拆开的。为不同的智能体配备了不同能力的 LLM。有的智能体在开发的时候会用 GLM 5.2 或者 DeepSeek pro 版本，在 python 和流程固定后，就改用 DeepSeek flash 重复执行了。

另外，我手动建立了本地 svn，并且不准智能体操作 svn，只允许操作 git。这样智能体用 git 做版本管理，我手动 svn 兜底。

好了，大概就是这样。