4 篇文章带有标签 “tokenization”

2026年6月6日星期六

深入浅出 k-Shingle：海量文本去重的防篡改利器

在文本挖掘和信息检索领域， $k$ -Shingle（通常也被称为 $k$ -gram）是一种将连续的文本切分成固定长度碎片的技术。它是海量文本去重（如 MinHash + LSH 架构）中极其关键的数据预处理阶段。

简单来说，它的核心任务是：把一篇文章（一维的字符串）转化成一个集合（Set），并且在这个集合中锁死文本的局部语序。

一、核心概念：滑动窗口（Sliding Window）

$k$ -Shingle 的工作原理就像一把长度为 $k$ 的滑动尺子。尺子从文本的开头开始，每次框住 $k$ 个单位的内容作为一个 Shingle，然后向右平移一个单位，重复这个过程，直到文本结束。

根据具体需求，这里的“单位”可以是字符（Character），也可以是单词（Word）：

基于字符的 $k$ -Shingle：通常用于拼写检查、DNA 序列分析或中文字符处理。
基于单词的 $k$ -Shingle：通常用于英文等有天然空格分隔的文本去重与防抄袭。

直观案例演练

我们以短语 abcde 为例，来看看在不同的 $k$ 值下，基于字符切分出来的 $k$ -Shingle 集合是什么样的：

当 $k = 1$ 时（尺子长度为 1）：每次只框一个字母。
集合结果：{ "a", "b", "c", "d", "e" }

2026-06-06 20:00

k-shingle 文本去重防篡改 jaccard-similarity minhash sliding-window tokenization murmurhash text-deduplication 特征提取

2023年5月30日星期二

State of GPT - Andrej Karpathy

介绍

Learn about the training pipeline of GPT assistants like ChatGPT, from tokenization to pretraining, supervised finetuning, and Reinforcement Learning from Human Feedback (RLHF). Dive deeper into practical techniques and mental models for the effective use of these models, including prompting strategies, finetuning, the rapidly growing ecosystem of tools, and their future extensions.

了解 ChatGPT 等 GPT 助手的训练管道，从标记化到预训练、监督微调和人类反馈强化学习 (RLHF)。深入研究有效使用这些模型的实用技术和心智模型，包括提示策略、微调、快速增长的工具生态系统及其未来的扩展。

2023-05-30 08:00

llm gpt fine-tuning andrej-karpathy tokenization machine-learning deep-learning generative-ai ai chatgpt

2023年4月28日星期五

OpenAI API Documentation Chat Completion

Chat Completion

模型

gpt-3.5-turbo
gpt-4

可以做很多事情

起草电子邮件或其他书面文件
编写 Python 代码
回答有关一组文件的问题
创建会话代理
为您的软件提供自然语言界面
一系列科目的导师
翻译语言
模拟视频游戏中的角色等等

API 调用例子 import os import openai openai.api_key = os.getenv("OPENAI_API_KEY") response = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "Who won the world series in 2020?

2023-04-28 08:00

openai chatgpt gpt chat-completion tokenization rate-limiting translation ai python