similarity-search - 标签 - 军舰的日志

2026年6月6日星期六

海量文本去重与相似度检索：从 Jaccard 到 MinHash 的完整技术指南

问题背景：为什么百亿级去重不可能暴力求解？

在互联网大数据场景中，如何从海量数据（如百亿网页、千万级商品描述、巨大的开源代码仓库）中快速找出重复或高度相似的内容？这是一个极其经典的工业界痛点。

最朴素的想法是：对文章进行分词，转成集合后两两比对。若有 $N$ 篇文档，需要比较 $\frac{N(N-1)}{2}$ 次。当 $N = 10^7$ （一千万）时，比较次数约为 50 万亿次。即便单次比较仅需 1 微秒，也需要 1.6 年 才能跑完。这种 $O(N^2)$ 复杂度的算法会导致服务器直接卡死崩溃。

本文将结合数学原理、算法推导与工程实战，深入拆解 Jaccard 相似度 的直觉陷阱，以及 MinHash（最小哈希） 算法如何对高维稀疏数据完成降维打击，最终给出可直接落地的工业级实现方案。

一、Jaccard 相似度：精准度量及其直觉陷阱

Jaccard 相似度（Jaccard Similarity） 是衡量两个集合重合度的标准数学方法。其核心思想非常直观：看两个集合的交集（共同拥有的元素）占它们并集（总共拥有的元素）的比例。

数学公式定义为：

J(A, B) = \frac{|A \cap B|}{|A \cup B|}

1. 经典直觉陷阱：为什么你常常会算错？

2026-06-06 08:00

2024年7月7日星期日

Qdrant

用于下一代人工智能应用的向量搜索引擎

Qdrant（读作：quadrant）是一个向量相似性搜索引擎和向量数据库。它提供了一个生产就绪的服务，具有方便的 API 来存储、搜索和管理点 - 具有附加有效载荷的向量。Qdrant 专为扩展的过滤支持量身定制。它对所有类型的神经网络或基于语义的匹配、分面搜索和其他应用非常有用。

解决方案

运行

Qdrant 镜像

docker pull qdrant/qdrant

启动 Qdrant 服务

docker run -p 6333:6333 -p 6334:6334 \
    -v $(pwd)/qdrant_storage:/qdrant/storage:z \
    qdrant/qdrant

Qdrant 现在可访问：

安装 Qdrant Client

pip install qdrant-client

代码示例

2024-07-07 08:00

qdrant vector-database vector-search docker python embeddings fastembed similarity-search

2 篇文章带有标签 “similarity-search”

2026年6月6日 星期六

海量文本去重与相似度检索：从 Jaccard 到 MinHash 的完整技术指南

2024年7月7日 星期日

Qdrant

2026年6月6日星期六

2024年7月7日星期日