4 篇文章带有标签 “minhash”

2026年6月17日星期三

Kilo Code AI 代码生成率与归因分析 — 系统设计

范围：Kilo CLI (packages/opencode/) / VS Code Extension (packages/kilo-vscode/) / Kilo Cloud (后端归因引擎)

执行摘要

本方案解决的核心问题是：精确量化 AI 在最终代码库中的实际贡献比例。现有方案（包括行业通用的"行数计数法"）只能回答"AI 被接受了多少行"，但无法回答"这些被接受的代码有多少存活到了最终提交，以及被人类修改了多少"。

本方案在 Kilo Code 现有架构上，引入 AST-aware MinHash 指纹归因引擎（基于 k-Shingle + LSH），构建一条从 AI 代码生成瞬间到 Git 最终提交的全链路追踪能力。三套代码生成路径（Tab 补全、Chat 对话、Agent 子任务）统一采集代码指纹，服务端在 Git 提交阶段进行归因匹配，最终产出精确到行级的 AI 贡献占比。

2026-06-17 06:00

2026年6月7日星期日

AI编码助手代码归因与贡献占比量化系统设计

这是一个非常实际的工业需求。MinHash 在这个场景中不是直接检测"是否 AI 生成"，而是作为代码指纹匹配引擎，追踪"AI 原始输出 → 人修改后最终代码"的相似度与存活比例。

下面给出完整的AI 生成代码占比统计系统设计方案。

一、问题定义：什么是"AI 生成代码占比"

在智能体编码助手（GitHub Copilot、Kilo Code、Cursor 等）的工作流中，代码的生命周期通常是：

AI 生成建议 → 人接受/修改 → 进入代码库 → 后续迭代中被修改

我们需要统计的是最终代码库中，可追溯至 AI 原始生成的代码比例。这不是简单的"谁按了 Tab 键"，而是：

统计维度	含义	计算方式
AI 原始贡献率	AI 生成的代码在最终代码中的存活比例	匹配上的代码行 / 总行数
人修改深度	人在 AI 代码基础上做了多大改动	1 - (AI 原始代码保留率)
人效提升系数	有 AI 辅助时人均产出 vs 无 AI 辅助	对比实验或历史基线

二、为什么 MinHash 适合这个场景

核心挑战

人会修改：AI 生成的代码被人接受后，通常会修改变量名、加注释、调逻辑，文本相似度会下降
代码重构：函数拆分、类提取等操作会让纯文本匹配失效
规模问题：一个团队每天可能产生数千次 AI 交互，需要快速匹配

MinHash 的优势

2026-06-07 06:00

ai-coding-assistant 代码归因贡献占比 minhash ast lsh code-fingerprint code-attribution plagiarism-detection ai-generated-code

2026年6月6日星期六

深入浅出 k-Shingle：海量文本去重的防篡改利器

在文本挖掘和信息检索领域， $k$ -Shingle（通常也被称为 $k$ -gram）是一种将连续的文本切分成固定长度碎片的技术。它是海量文本去重（如 MinHash + LSH 架构）中极其关键的数据预处理阶段。

简单来说，它的核心任务是：把一篇文章（一维的字符串）转化成一个集合（Set），并且在这个集合中锁死文本的局部语序。

一、核心概念：滑动窗口（Sliding Window）

$k$ -Shingle 的工作原理就像一把长度为 $k$ 的滑动尺子。尺子从文本的开头开始，每次框住 $k$ 个单位的内容作为一个 Shingle，然后向右平移一个单位，重复这个过程，直到文本结束。

根据具体需求，这里的“单位”可以是字符（Character），也可以是单词（Word）：

基于字符的 $k$ -Shingle：通常用于拼写检查、DNA 序列分析或中文字符处理。
基于单词的 $k$ -Shingle：通常用于英文等有天然空格分隔的文本去重与防抄袭。

直观案例演练

我们以短语 abcde 为例，来看看在不同的 $k$ 值下，基于字符切分出来的 $k$ -Shingle 集合是什么样的：

当 $k = 1$ 时（尺子长度为 1）：每次只框一个字母。
集合结果：{ "a", "b", "c", "d", "e" }

2026-06-06 20:00

k-shingle 文本去重防篡改 jaccard-similarity minhash sliding-window tokenization murmurhash text-deduplication 特征提取

海量文本去重与相似度检索：从 Jaccard 到 MinHash 的完整技术指南

问题背景：为什么百亿级去重不可能暴力求解？

在互联网大数据场景中，如何从海量数据（如百亿网页、千万级商品描述、巨大的开源代码仓库）中快速找出重复或高度相似的内容？这是一个极其经典的工业界痛点。

最朴素的想法是：对文章进行分词，转成集合后两两比对。若有 $N$ 篇文档，需要比较 $\frac{N(N-1)}{2}$ 次。当 $N = 10^7$ （一千万）时，比较次数约为 50 万亿次。即便单次比较仅需 1 微秒，也需要 1.6 年 才能跑完。这种 $O(N^2)$ 复杂度的算法会导致服务器直接卡死崩溃。

本文将结合数学原理、算法推导与工程实战，深入拆解 Jaccard 相似度 的直觉陷阱，以及 MinHash（最小哈希） 算法如何对高维稀疏数据完成降维打击，最终给出可直接落地的工业级实现方案。

一、Jaccard 相似度：精准度量及其直觉陷阱

Jaccard 相似度（Jaccard Similarity） 是衡量两个集合重合度的标准数学方法。其核心思想非常直观：看两个集合的交集（共同拥有的元素）占它们并集（总共拥有的元素）的比例。

数学公式定义为：

J(A, B) = \frac{|A \cap B|}{|A \cup B|}

1. 经典直觉陷阱：为什么你常常会算错？

2026-06-06 08:00