跳转至

Blog

GLM 5.2强的可怕

今天闲来无事,拿GLM 5.2跑了一下几个小工作流。

说实话,一开始没当回事。结果跑完给我整不会了。

明显比之前强了好多啊。之前GLM 5.1我也试过,那时候编程还行,但总觉得差点意思,有些任务给它吧,不放心,还得自己再检查一遍。

但5.2这次是真不一样。

编程这块,我感觉已经进入第一梯队了。不是那种"国产里面算好的"的"第一梯队",是放全球范围内都能打的那种。几个小工程任务跑下来,从理解需求到出代码,全程没掉链子。放到以前,这种活儿我肯定扔给Claude或者GPT去干,今天发现GLM 5.2直接就能搞定。

尤其让我意外的是,它居然能淘汰掉一些GPT 5.5的工作。

就是那种,以前觉得"嗯这个还是得GPT来"的任务,GLM 5.2接过去,干得一样好,甚至还更快。这就有点恐怖了。

当然,也不是没短板。文笔这块还是略逊一些。写文案、润色、写文章什么的,感觉还是差点火候。但这玩意儿吧,说实话也不是它的主战场。

GLM 5.2的主战场就是编程和工程任务,在这个领域,它已经强得有点不讲道理了。

太神奇了,真的太神奇了。

回想两年前谁能想到,国产模型能走到这一步?

AI下通识水平更重要

今天看了一份 Anthropic 的报告,是针对 Claude Code 的使用数据统计。里面有一项数据我很感兴趣:

实际上,使用智能体的人,新手和老手之间差异很大,但老手和精通者之间差异很小。

也就是说,对于一个事情,如果是知识类的事情,只要大概掌握全貌,有个通识教育之后,就能迅速进入全部掌握的状态。这其实是对整个人类教育体系的颠覆。

我们过去你看,上大学是通识教育,研究生开始钻研,博士生开始精通。但借助了 AI 之后,本科生与研究生和博士生的差距,瞬间就被 AI 缩小了。可能博士生还是有一定优势,但研究生跟本科生在知识储备上几乎没差异了。

以后工作上大概只有三个级别:蓝领、本科和博士。

怎么说呢?AI 带来的第三次工业革命,我们已经深入其中了。历史车轮滚滚向前,谁他娘的都回不了头。

更担心的是剥削

其实我更担心什么?剥削。

以前,无产阶级还能通过出卖自己的知识达到中产阶级。现在老板只要经过通识教育,生产资料将不再外泄,阶层很可能固化得比以前更严重。

这个问题各国政府可能已经有预料到,但是真正能付诸实践的、或者说能避免恶劣情况发生的政策或举措,至今还没有出台。

不过就业情况已经烂成这个鬼样子了,总得想点办法。

还是那句话,历史车轮滚滚向前,谁他娘的都回不了头。

AI开发避坑随笔

这半年以来,Claude Code、CodeX 等工具普及开来,越来越多人参与到了这场史无前例的全员开发中来。

虽然远离商业开发已经数年,但这半年也用 AI 开发了一些小东西,有一些自己的小感悟。

不要一定做个新软件出来

能用 Agent 做软件了,不少项目经理跃跃欲试。这本身没有错,但有的需求,实际上放在智能体里实现才是最佳实践。

是的,做的新软件也可以用 API 调用大模型,但总归没有智能体里好用。工具调用、MCP、全局记忆等等,再实现一次轮子又是何必。

最典型的就是类似写文章、润色系统这种需求——明显需要大模型介入的,那就不要单独做软件,而是考虑做成一个完善的 Agent,然后用微信、飞书等方式对接出来。实现功能才是关键,不要为了开发而开发。

目前的商业开发仍然需要人工介入

总有一些人,拿着 Claude Code、CodeX 就认为天下无敌了。像模像样地写了个看上去很满意的全盘需求文档,结果丢进去全自动开发完,实际上是很难把控结果的。

即便到了今天(2026 年 6 月 14 日),这种开发方法能做出来的东西都很辣眼睛。不要看一些 Up 主丢了个简单需求给 Fable 5,然后做出来一个看上去完成度不错的软件就觉得很棒。那些东西是没有详细展示的,自己试试就知道问题有多少。

商业化的程序开发,从使用 Claude Code 开始,就有详细的计划和执行之分,还有类似 SuperPowers 等把控开发过程的 skill。还需要开发者告知框架和方向(比如制定软件设计模式)。不是写个用户需求文档就能简单制作的。

目前简单告知需求直接完成的,仍然还停留在做 Demo 的水平。能用的商业落地,还是需要程序员介入——可能不需要那么多程序员了,但知道框架设计的程序员依然要。

程序员方面淘汰的只有码农

近半年来不少公司裁程序员,实际上并不是 AI 来了才裁的,是因为本来业务不够了,想裁总得找个由头。正好有这个 AI 的风口来了,顺势裁员而已。

AI 时代确实不需要苦力码农了,但程序员还是需要的。

曾经有个修车的段子:有个人去修车,结果就是拧紧一颗螺栓,要了 200 块。车主很生气,觉得不值得。修车工说,知道拧哪价值 199,拧的价格 1 元。

这和用 AI 编程差不多吧,知道如何指挥 AI 才是价值。不过企业短期内应该还没办法量化如何确认人才和面试人才,人才市场还处于混沌吧。

AI算力,中美对比(26年6月)

AI算力,中美对比(26年6月)

我写的算力对比是基于当前26年6月中旬。 目前各个自媒体对于中美这个算力的基础设施没有一个正确的认识。写个博客记录一下。 目前这个英伟达B200公布的FP4算力是9 PFLOPS,而华为昇腾950公布的这个FP4的算力是1.56 PFLOPS。 在功耗上,B200是1000瓦,而华为昇腾950是600瓦。 那么粗略的算,就是在相同耗电的情况下,中国的算力是美国算力的1/3左右。 这还只是在 FP4 推理上,其实华为昇腾 950 大概在其他方面的推理能力很可能要远远低于这个英伟达当前的技术。乐观点看,可能有些东西的差距在10倍左右。

目前来看,黄仁勋老黄他最担心的应该是 Deepseek 它全流程跑通了整个 AI 的流程。其实从新华社的官方宣传来看,目前 Deepseek V4 也只是后训练用了昇腾的芯片组,在推理上用了昇腾的 910C。对吧?它只是能相对低成本的去实现大语言模型的推理。

原因应该还是在光刻机上,没有最新的工艺,华为设计再好,发挥不出来。最近搞了个什么韬定律,其实和英特尔的Intel7,拿10纳米画饼、7纳米的饼,不是一回事吗?

国内各个做软件大模型的厂子,其实基本上也没有用什么国产芯片,用的不还是英伟达那套,自己想办法搞的卡而已。所以我看来哈,软件层面可能中美的差距目前3~6个月。但硬件层面,其实还卡在光刻机上。啥时候突破了?啥时候?就能抹平这个硬件上3~10倍的差距。

任重道远哟。

我们需要什么样的AI

今天来填个坑,讲讲我之前想说的,需要什么样的 AI 工具。

代码:AI的最佳试验田

其实大语言模型经验这两年,从24年底ChatGPT 开始让我们真的感觉有聊天的这个,到现在26年6月。实际上大语言模型能直接完整解决的任务只有写代码。

当然,这个写代码能这么快搞定的,一个是写代码本身是一个对大语言模型来说,自闭环的评,很容易评价好坏的一个过程。第二,就是这个 GitHub,这个开源代码库啊,它既贡献了开源,又覆灭了程序员。

但是我最近对于 Claude Code,因为 Fable 5模型刚发布嘛。其实哪怕最先进的大模型,你看上去做个 demo 可能只需要几句话。实际投入工业应用的时候,使用者的判断力跟指导能力,就是组织语言、全局架构把控,这种能力是很关键的。远远不是说一个大模型,就能取代程序员。

但跑题了。其实今天讲我们要什么工具,我只是从程序员引入。因为程序员用的这个客户端,Claude Code 这种。一开始都是类似于命令行,对吧?哪怕到现在,其实也是那种类似命令行的一个交互方法。其实我并不觉得这个方法对一般人很通用。对于经常写代码的人当然也无所谓,这样觉得敲得快呀,简洁啊,极客啥的。一般在做应用的时候,这反而不通用。我们需要用的 AI 工具应该是一个对于你平常使用无感接入的。程序员因为之前的编代码的方法,和 Claude Code 这种类似于命令行的回馈特别的契合,他本来就是干那活的,知道吧?所以对于 Claude Code 对于程序员来说,他是无感接入的。但是对于一般人使用,尼玛跟天书一样,对吧?

所以,我们到目前为止,你能看到市面上的这种 AI 工具,要么就是网页版的,要么就是一个类似于聊天框的。哪怕它扩展很多倍,花里胡哨的,你像CodeX。但是它给你的感觉就像一个能和你聊天的机器人。我们现在没有找到这种 AI 如何去快速嵌入一般工作流的过程。因为我们这个整个做 AI 的,它是基于 LLM 的大语言模型。那么这个大语言模型它本身就是一个聊天。我们用什么提示词,上下文如何量化去,向量化,然后去传给模型,其实本质上还就是聊天。所以,工程上你第一感觉我们就该做个聊天的东西。你像程序员的那种 Claude Code,它虽然是打字是聊天,但是它是无缝用命令行那种形式接入了原来那套工作流。所以它可以在编程的过程中有很棒的感觉。

但是你想想,像 AutoCAD 这种其实用命令去建模,它其实本质上也是很贴合这个大语言模型的生成模式,其实很方便,应该去扩展,大语言模型也可以通过给 AutoCAD 输入命令来去建模。但是你看看我们实际上工业化能够去这种无缝嵌入 AutoCAD 的,几乎是没有,对吧?只有一些个人,或者说相对小众的人会去把智能体去对接这样一个东西。

无感接入

所以我一直在想,我们的 AI 到底需要做什么?其实从产品层面讲,最核心的要求就是无感接入。要能丝滑地和你整个的工作相契合。我差不多在5月底到6月初,不停地迭代和优化我做视频的一个流程。中间已经自己搞过差不多20个智能体。从原来的流程,很多东西自动化了。你像原来我得开ComfyUI去绘制图片。然后因为这个图片它是有上下文参考的,也可能要把我的模型嵌进去,对吧?整个这个过程以前,有很多重复的人工。我在这个里面,我把API开放出来,接入远端。我依然用Nano Banana或者这个GPT Image2去生成图片,而且也同样生成参考。但是我已经可以基本上做到完全不用人工去干预了。我现在稿件写完,就是人工写稿写完的话,然后出完分镜。分镜我过一遍,过一遍之后,我那个文档,那个Markdown文档,我传入到我的绘图工作流里面,它就会可能二三十分钟吧,能把我一整篇文案的图出出来。我只能说,哎,这100张图里,啊,这个,这几张不行,你重新画一下。然后他就重新画一下,然后我说,好,可以了,他就可以进行下一步。这是一个实际的一个流程。但问题在于,其实它中间这个过程呢,并不是无感接入的。我整个接入的过程呢,你说是程序开发吧,它也不是。那就是一个跟智能体的聊天,但是跟智能体聊天的过程中,你就会感觉这个并没有那么好用。但结果上确实提高了很多效率。搭建的过程中,我觉得如果没有足够的知识和平常的实际需求。通过智能体来提高生产力。并且,想解放人的创造力是没有那么容易的。而且,因为你实现的过程中要注意很多细节,然后不停地去迭代。哪怕有的时候你看我把 API 文档给大语言模型,其实也会理解错。大多数文档阅读没问题,但是上下文有的时候长了也有问题。问题一方面是工程软件给你的感觉接入不是无感。

另一方面是整个上下文其实有限制,有的时候写太长了,你真的一兆也不够用,对吧?而且,现在说的一兆上下文,它越前面的内容,它还是有一点点遗忘,对吧?哪怕那个上下文,它是没有被压缩的时候,它还是会有一点点遗忘的。

另外,这个其实。如何做理想的工具形态?我想可能任何一行。你想无感接入。这种东西,我很难得抽象出来。但是如果实际上,如果他是一个文员,他这个要面对很多 Word 表、Word 文档。那么其实,这个时候你应该从传统工具接入,对吧?无感接入才是你应该实现的。然后那个时候,你像以前,像 Word 的右下角助手,你现在觉得,那个助手当时像个SB一样。但现在,你在做 Word右下角的助手,接入大语言模型,并且给它赋予足够的工具能力,那么它就是非常厉害的。应该也是比较不敢接入的。然后你其实你说,P 图。我们虽然像 GPT Image 2有很强的出图和编辑图文能力。但是有的时候我如果在一个类似 PS 的软件里,它能高度集成 GPT Image 2,然后把这个功能能够放大出来,那个时候才能对接它的工业设计吧。是这样吧?其实正版的这个 PS 里面已经有一部分这个能力,但是这个能力还我认为还远远不够。

就终归来说,我觉得就是要在你做的那个工具中,无感接入。如果是需要创造的话,那么这个 AI 的这个能够解放的生产力就放不太出来。

草台班子

另外话说回来,我是觉得啊,像你像以后的程序员呢,可能不需要那么强的动手能力,他更多的是文科嘛,你要理解整个计算机的架构啊,软件如何去设计啊。对吧?你比方说你的软件,你如果有很多个子类需要实现,然后你要抽,要有个抽象类,你肯定要有一个什么工厂模式嘛,对吧?你像我们软件学的设计模式,其实反而变得很关键。这种工厂模式。你如果不明确点给 AI 他也不知道。你不能指望提示词里,或者说别人的 skill 里。给你把所有的这个经验参数总结进去,他肯定是没有的。但是你你得告诉他用这个。我们总嘲笑世界是个草台班子。其实当你有了 AI,你有了巨大的生产力以后,你自己就是草台班子,对吧?你不知道要做什么,你拿着可以制造核武器的东西在这里挖煤,还嘲笑别人是草台班子,是不是滑稽?