我可以 100% 证实,Qwen3.6-27B 在处理编程任务时是一款非常出色的本地模型。在过去的一个半月里,我几乎每天都在使用它,要么是在我的 M2 Ultra 上,要么是在我的 RTX 5090 电脑上。我用它来处理 ggml-org 中一些简单乏味的日常任务——没什么特别惊艳的,但对一个维护者来说绝对是个实用的工具。我想如果我不用把大量时间花在审查 PR(拉取请求)上的话,我使用它的频率还会高得多。目前,我使用了一个非常轻量级的环境——精简了所有内容的 pi agent(pi -nc --offline),并加了一段简短的系统提示词,以便让它更符合我的风格。 来源: Simon Willison 的网络日志
随着可用的软件越来越像拧开水龙头一样唾手可得,我感到很多事情都在发生变化。杰文斯悖论开始显现,我对软件的需求也在大幅增长。你可以要求任何东西——解释器、可视化工具、仪表盘、定制的单次使用应用……你可以把测试套件扩大 10 倍,自动优化代码,运行大型研究项目并用自定义 HTML 展示结果,什么都可以!《黑客帝国》里说的「解放你的思想」。来源: Simon Willison 的网络日志
我现在收到的很多创始人邮件都写成了一种强硬的新闻体风格。我知道它们是 AI 写的,因为以前从来没有创始人这样写过。一旦你意识到某件事是 AI 写的,就很难不去忽略它。
我从未 knowingly 读完过一封由人署名但由 AI 写的邮件。这感觉像被欺骗,谁会忍受呢?
这让我对作者评价降低。这意味着他们无法独立写好(或者觉得自己写不好),而且他们试图欺骗我。
用 AI 帮你写东西并不令人印象深刻;任何青少年都能做到。
可以说,在我人生的前四分之一个世纪里,尽管我对编程一直充满痴迷,却始终无法摆脱一种内疚感——我总是在怀疑,自己手头正在构建的工具,是不是早在 30 年或 40 年前就已经被别人用更好、更完美的方式实现了。比如,我可能会自己写一个支持 TSV(标签分隔值)的查找与替换程序,但随后却发现早就有了一个叫 awk 的工具,能一举解决这一整类问题。
而我核心的论点在于:这其实是一个陷阱。
你必须去重新发明几个轮子,才能触及人类对“造轮子”这件事的认知边界。不是发明一千个轮子,也不是一个都不发明。在大多数领域,重新发明四五个轮子就足够了;而在数学或计算机科学这种在认识论上极度严密且成熟的领域,这个数字可能更接近二十或三十个。你所重新发明的每一个轮子,以及一路上提出的每一个针对性问题,都会把你推向真正的技术前沿——其速度之快,是把同样的时间花在盲目死板的学习上,甚至是花上其五倍的时间,都无法比拟的。
来源: Simon Willison 的网络日志
很难说清楚在过去两个月里,人工智能让编程发生了多大的变化:它不是以「往常一样逐步进展」的方式渐进发生的,而是就在去年十二月突然发生的。他指出,由于更高质量模型具备了「长期连贯性和执着性」,编程智能体「在十二月之前基本还不好用,但从那之后基本就能用了」。来源: Simon Willison 的网络日志
安德烈·卡帕西(Andrej Karpathy)发布了一篇微型散文(推文),提到自己买了一台 Mac Mini(“Apple Store 的店员告诉我这东西卖得像热饼一样快,大家都很困惑”),用来折腾 Claws:
我对直接运行 OpenClaw 确实还有点怀疑……但我非常喜欢这个概念。我认为,就像 LLM 智能体(LLM agents)是建立在 LLM 之上的新层级一样,Claws 现已成为建立在 LLM 智能体之上的全新层级。它将编排、调度、上下文、工具调用以及某种持久性提升到了一个新的水平。 环顾四周,既然这种高层级的理念已经很明确,许多更小型的 Claws 已经开始涌现。例如,粗略浏览一下,NanoClaw 看起来非常有趣,它的核心引擎只有大约 4000 行代码(它既能装进我的脑子里,也能装进 AI 智能体的“脑子”里,因此感觉可控、可审计且灵活),并且默认在容器中运行所有内容。…… 总之,还有很多其他的例子——比如 nanobot、zeroclaw、ironclaw、picoclaw(这些前缀真让人发笑)。…… 目前我还不能 100% 确定我最终的配置会是什么样子,但 Claws 绝对是 AI 技术栈中一个令人兴奋的全新层级。
安德烈对新鲜术语有着极强的敏锐度(比如之前他提出的 “氛围编码 / vibe coding” 和 “智能体工程 / agentic engineeri
最初在 2019 年,OpenAI 使用 32 块 TPU v3 芯片训练了 168 小时(7 天),当时每块 TPU v3 每小时 8 美元,总成本约为 4.3 万美元。它达到了 0.256525 的 CORE 分数,这是 DCLM 论文中提出的一个综合指标,涵盖了 ARC/MMLU 等 22 项评测。
随着最近合并到 nanochat 的多项改进(其中许多来自 modded-nanogpt 仓库),我现在可以在单个 8XH100 节点上用 3.04 小时(约 73 美元)达到更高的 CORE 分数。这意味着在 7 年内成本降低了 600 倍,也就是说,训练 GPT-2 的成本大约每年下降 2.5 倍。来源: Simon Willison 的网络日志
2025 年,基于可验证奖励的强化学习(RLVR)脱颖而出,成为这一时期事实上的新重要阶段。通过在多个环境中利用自动可验证的奖励来训练大语言模型(例如数学/代码谜题),大语言模型会自发地发展出对人类来说看起来像「推理」的策略——它们学会将问题解决分解为中间计算,并学会多种来回探索的策略以弄清楚事物(参见 DeepSeek R1 论文中的例子)。来源: Simon Willison 的网络日志
凭借现在的人工智能,我们能够编写以前根本无法手工编写的新程序。我们通过指定目标(例如分类准确率、奖励函数)来做到这一点,并通过梯度下降搜索程序空间,以找到在该目标上表现良好的神经网络。
Karpathy 引用了他的「Software 2.0」博客文章。他指出,「可验证性」是人工智能优化中最具预测性的特征——如果一项任务是可验证的,那么它就可以直接或通过强化学习进行优化。而人工智能「练习」的环境必须满足三个要求:可重置、高效、可奖励。 来源: Simon Willison 的网络日志
没有找到匹配的文章