我可以 100% 证实,Qwen3.6-27B 在处理编程任务时是一款非常出色的本地模型。在过去的一个半月里,我几乎每天都在使用它,要么是在我的 M2 Ultra 上,要么是在我的 RTX 5090 电脑上。我用它来处理 ggml-org 中一些简单乏味的日常任务——没什么特别惊艳的,但对一个维护者来说绝对是个实用的工具。我想如果我不用把大量时间花在审查 PR(拉取请求)上的话,我使用它的频率还会高得多。目前,我使用了一个非常轻量级的环境——精简了所有内容的 pi agent(pi -nc --offline),并加了一段简短的系统提示词,以便让它更符合我的风格。 来源: Simon Willison 的网络日志

Georgi Gerganov

随着可用的软件越来越像拧开水龙头一样唾手可得,我感到很多事情都在发生变化。杰文斯悖论开始显现,我对软件的需求也在大幅增长。你可以要求任何东西——解释器、可视化工具、仪表盘、定制的单次使用应用……你可以把测试套件扩大 10 倍,自动优化代码,运行大型研究项目并用自定义 HTML 展示结果,什么都可以!《黑客帝国》里说的「解放你的思想」。来源: Simon Willison 的网络日志

Andrej Karpathy

我现在收到的很多创始人邮件都写成了一种强硬的新闻体风格。我知道它们是 AI 写的,因为以前从来没有创始人这样写过。一旦你意识到某件事是 AI 写的,就很难不去忽略它。

我从未 knowingly 读完过一封由人署名但由 AI 写的邮件。这感觉像被欺骗,谁会忍受呢?

这让我对作者评价降低。这意味着他们无法独立写好(或者觉得自己写不好),而且他们试图欺骗我。

用 AI 帮你写东西并不令人印象深刻;任何青少年都能做到。

来源: Simon Willison 的网络日志

Paul Graham

可以说,在我人生的前四分之一个世纪里,尽管我对编程一直充满痴迷,却始终无法摆脱一种内疚感——我总是在怀疑,自己手头正在构建的工具,是不是早在 30 年或 40 年前就已经被别人用更好、更完美的方式实现了。比如,我可能会自己写一个支持 TSV(标签分隔值)的查找与替换程序,但随后却发现早就有了一个叫 awk 的工具,能一举解决这一整类问题。

而我核心的论点在于:这其实是一个陷阱

必须去重新发明几个轮子,才能触及人类对“造轮子”这件事的认知边界。不是发明一千个轮子,也不是一个都不发明。在大多数领域,重新发明四五个轮子就足够了;而在数学计算机科学这种在认识论上极度严密且成熟的领域,这个数字可能更接近二十三十个。你所重新发明的每一个轮子,以及一路上提出的每一个针对性问题,都会把你推向真正的技术前沿——其速度之快,是把同样的时间花在盲目死板的学习上,甚至是花上其五倍的时间,都无法比拟的。 来源: Simon Willison 的网络日志

Andrew Quinn

很难说清楚在过去两个月里,人工智能让编程发生了多大的变化:它不是以「往常一样逐步进展」的方式渐进发生的,而是就在去年十二月突然发生的。他指出,由于更高质量模型具备了「长期连贯性和执着性」,编程智能体「在十二月之前基本还不好用,但从那之后基本就能用了」。来源: Simon Willison 的网络日志

Andrej Karpathy

安德烈·卡帕西(Andrej Karpathy)发布了一篇微型散文(推文),提到自己买了一台 Mac Mini(“Apple Store 的店员告诉我这东西卖得像热饼一样快,大家都很困惑”),用来折腾 Claws

我对直接运行 OpenClaw 确实还有点怀疑……但我非常喜欢这个概念。我认为,就像 LLM 智能体(LLM agents)是建立在 LLM 之上的新层级一样,Claws 现已成为建立在 LLM 智能体之上的全新层级。它将编排、调度、上下文、工具调用以及某种持久性提升到了一个新的水平。 环顾四周,既然这种高层级的理念已经很明确,许多更小型的 Claws 已经开始涌现。例如,粗略浏览一下,NanoClaw 看起来非常有趣,它的核心引擎只有大约 4000 行代码(它既能装进我的脑子里,也能装进 AI 智能体的“脑子”里,因此感觉可控、可审计且灵活),并且默认在容器中运行所有内容。…… 总之,还有很多其他的例子——比如 nanobot、zeroclaw、ironclaw、picoclaw(这些前缀真让人发笑)。…… 目前我还不能 100% 确定我最终的配置会是什么样子,但 Claws 绝对是 AI 技术栈中一个令人兴奋的全新层级。

安德烈对新鲜术语有着极强的敏锐度(比如之前他提出的 “氛围编码 / vibe coding” 和 “智能体工程 / agentic engineeri

Andrej Karpathy

最初在 2019 年,OpenAI 使用 32 块 TPU v3 芯片训练了 168 小时(7 天),当时每块 TPU v3 每小时 8 美元,总成本约为 4.3 万美元。它达到了 0.256525 的 CORE 分数,这是 DCLM 论文中提出的一个综合指标,涵盖了 ARC/MMLU 等 22 项评测。

随着最近合并到 nanochat 的多项改进(其中许多来自 modded-nanogpt 仓库),我现在可以在单个 8XH100 节点上用 3.04 小时(约 73 美元)达到更高的 CORE 分数。这意味着在 7 年内成本降低了 600 倍,也就是说,训练 GPT-2 的成本大约每年下降 2.5 倍。来源: Simon Willison 的网络日志

Andrej Karpathy

2025 年,基于可验证奖励的强化学习(RLVR)脱颖而出,成为这一时期事实上的新重要阶段。通过在多个环境中利用自动可验证的奖励来训练大语言模型(例如数学/代码谜题),大语言模型会自发地发展出对人类来说看起来像「推理」的策略——它们学会将问题解决分解为中间计算,并学会多种来回探索的策略以弄清楚事物(参见 DeepSeek R1 论文中的例子)。来源: Simon Willison 的网络日志

Andrej Karpathy

凭借现在的人工智能,我们能够编写以前根本无法手工编写的新程序。我们通过指定目标(例如分类准确率、奖励函数)来做到这一点,并通过梯度下降搜索程序空间,以找到在该目标上表现良好的神经网络。

Karpathy 引用了他的「Software 2.0」博客文章。他指出,「可验证性」是人工智能优化中最具预测性的特征——如果一项任务是可验证的,那么它就可以直接或通过强化学习进行优化。而人工智能「练习」的环境必须满足三个要求:可重置、高效、可奖励。 来源: Simon Willison 的网络日志

Andrej Karpathy