2 篇文章带有标签 “local-deployment”

2026年6月4日星期四

端侧AI：Gemma 4 12B 创新架构与 LiteRT-LM 本地部署指南

Gemma 4 12B

Gemma 4 12B 是谷歌最新推出的一款原生、无编码器（Encoder-free）的统一多模态大模型。它的核心定位是将高水平的“智能体（Agentic）”和多模态能力直接带到用户的笔记本电脑等日常消费级硬件上。

以下是对 Gemma 4 12B 大模型的详细介绍：

1. 创新的统一架构：无编码器设计（Encoder-free）

与传统的多模态模型（通常需要使用独立的、冻结的视觉或音频编码器将数据转化为文本格式）不同，Gemma 4 12B 采用了统一的、仅解码器（Decoder-only）的 Transformer 架构。

视觉嵌入器（Vision Embedder）：仅有 35M 参数，取代了传统复杂的视觉 Transformer 层。它将 48x48 像素的原始图像块（Patches）通过单次矩阵乘法直接投影到大语言模型（LLM）的隐藏维度中，并利用 X 和 Y 矩阵的坐标查找技术，直接将空间位置信息附带在输入中。
音频波形投影（Audio Wave Projection）：完全取消了独立的音频编码器。它直接将 16 kHz 的原始音频信号切片为 40ms 的帧（每帧包含 640 个浮点数），并通过线性投影无缝输入到 LLM 的空间中。

2026-06-04 18:00

2026年2月22日星期日

Andrej Karpathy：Claws 将成为 AI 技术栈中的新层级

周末买了一台新的 Mac mini，打算正儿八经地捣鼓一下 Claws。Apple Store 的店员告诉我这东西现在卖得像热交换一样火爆，而且每个人（买它时）都是一脸懵逼的样子 :)

说实话，运行 OpenClaw 让我有点心里发虚——要把我的私人数据和密钥交给一个由 400k 行代码组成、靠“氛围感编程”（vibe coded） 堆出来的巨型怪物，而且这个怪物目前正面临大规模的活跃攻击，这真的一点吸引力都没有。我已经看到有报告称出现了实例暴露、RCE（远程代码执行）漏洞、供应链污染，以及插件库里被恶意篡改的技能。这感觉完全就是一片混乱的“西部荒野”，简直是安全噩梦。但我确实非常喜欢这个概念。我认为，就像 LLM Agent（智能体）是 LLM 之上的新层级一样，Claws 现在是 LLM Agent 之上的又一新层级，它将编排、调度、上下文管理、工具调用以及某种持久性提升到了一个新的高度。

环顾四周，既然核心思路已经明确，现在已经冒出了很多轻量级的 Claws。例如，粗略扫一眼，NanoClaw 看起来就非常有意思：它的核心引擎只有大约 4000 行代码（这个体量既能装进我的脑子，也能装进 AI Agent 的脑子，所以感觉是可控、可审计且灵活的），而且默认在容器中运行所有内容。我也很喜欢他们的配置方案——不是通过配置文件，而是通过“技能”来实现！

2026-02-22 12:00

claws openclaw nanoclaw ai-stack llm-agent vibe-coding local-deployment container ai-native-assistant 智能体

2 篇文章带有标签 “local-deployment”

2026年6月4日 星期四

端侧AI：Gemma 4 12B 创新架构与 LiteRT-LM 本地部署指南

2026年2月22日 星期日

Andrej Karpathy：Claws 将成为 AI 技术栈中的新层级

2026年6月4日星期四

2026年2月22日星期日