8 篇文章带有标签 “nlp”
Open Source Models with Hugging Face
Natural Language Processing (NLP)
安装依赖库
pip install transformers
Conversational
Hugging Face NLP Course
1. TRANSFORMER 模型
自然语言处理
NLP 是语言学和机器学习交叉领域,专注于理解与人类语言相关的一切。 NLP 任务的目标不仅是单独理解单个单词,而且是能够理解这些单词的上下文。
以下是常见 NLP 任务的列表:
- 对整个句子进行分类:
- 获取评论的情绪
- 检测电子邮件是否为垃圾邮件
- 确定句子在语法上是否正确
- 确定两个句子在逻辑上是否相关
- 对句子中的每个词进行分类:
- 识别句子的语法成分(名词、动词、形容词)
- 识别句子的命名实体(人、地点、组织)
- 生成文本内容:
- 用自动生成的文本完成提示
- 用屏蔽词填充文本中的空白
- 从文本中提取答案:
- 给定问题和上下文,根据上下文中提供的信息提取问题的答案
- 从输入文本生成新句子:
- 将文本翻译成另一种语言
- 总结文本
- 语音识别:
- 生成音频样本的转录
- 计算机视觉:
- 生成图像描述
- 目标检测
Transformers 能做什么?
Transformers 库中最基本的对象是 pipeline() 函数。它将模型与其必要的预处理和后处理步骤连接起来,使我们能够通过直接输入任何文本并获得最终的答案:
2023 年全国行业职业技能竞赛
该文档详细介绍了 2023年全国行业职业技能竞赛,涵盖了多个技术任务。任务一侧重于语音处理,通过Python代码展示了如何利用腾讯云API进行语音识别和语音合成,包括音频文件的Base64编码转换和请求参数配置,并输出了实际的识别结果。任务二则聚焦于语音模型,阐述了声学模型的初始化、加载预训练模型以及语音识别的整个流程,并提到了模型训练的配置。任务三涉及文本处理,通过requests库抓取网页内容,并利用re、BeautifulSoup和lxml.etree等工具进行网页内容解析和文本提取,同时展示了文本清洗、数据扩充以及使用Stanford CoreNLP进行中文分词、词性标注和命名实体识别。任务四是数据分析与可视化,展示了如何从Excel文件中读取急诊科就诊数据,并计算男女比例、每日就诊人数和各诊室就诊人数,最终通过matplotlib库生成饼状图、柱状图和折线图进行数据可视化。
2023年全国行业职业技能竞赛 第二届全国电子企业职业技能竞赛
任务一
任务1.1
任务1.2
Private GPT 中文 Embeddings 模型测试
文档
这里使用的文档是:合作方人员出勤及结算管理信息化支撑规则
一、出勤打卡
出勤打卡包括:正常出勤打卡、出差打卡、外出打卡、加班打卡。
1. 正常出勤打卡:指正常的出勤办公打卡。
(1)全天出勤打卡:上班打卡:8点30分之前打卡。下班打卡:17点30分之后打卡。
(2)半天出勤打卡。上午打卡时间段:8点30分之前、12点之后。下午时间段:13点之前,17点30分之后。
(3)打卡(考勤机或企业微信打卡)形式按部门要求为准,最小半天为统计单位。
2. 出差打卡:指出差地出勤办公或在途期间打卡。
(1)固定出差地打卡:打卡时间参照第1条正常出勤上下班打卡;无法定位有效范围的找部门管理员修改工作打卡位置。(具体按照各部门要求执行)
(2)出差在途打卡(使用手机外出打卡)。到车站坐车前打外出打卡一次,到达目的地后打外出打卡一次(往返同理)。下午出差的,上午需打正常出勤卡(上午正常出勤须闭环打卡);上午到达出差地的,下午需打一次外出打卡或上下班打卡。
3. 外出打卡:指外出办事打卡。提外出申请后,可以打外出卡,打外出卡时间需在申请时间内:
(1)半天外出:如外出时间在上午(12点前) 或者下午(12点后),则另外半天需正常出勤打卡。
(2)跨12点外出:如外出跨度期间包含12点,则12点前、12点后分别打外出卡即可记为合格出勤。
// ...
提示词模板 使用以下上下文来回答最后的问题。
AI 大模型
🔥 大模型
🔥 Andrej Karpathy
🔥 李沐 论文精读 如何读论文 AlexNet ResNet 零基础多图详解图神经网络(GNN/GCN) GAN Transformer BERT Pre-training ViT 卷积神经网络的两个归纳偏置:1、locality(相同区域有相同的特征);2、translation equivariance(平移等变性) local neighborhoods MAE Autoencoder 对比学习论文综述 数据增强:Crop 和 Color 的组合最有效 MoCo CLIP How to Train Really Large Models on Many GPUs?
Hugging Face 快速入门
Hugging Face 是所有机器学习任务的大本营。 您可以在这里找到开始一项任务所需的内容:演示、用例、模型、数据集等等!
创建和托管很棒的机器学习演示
Solutions
Expert Acceleration Program(专家加速计划)- 加速您的 ML 路线图
从我们屡获殊荣的机器学习专家那里获得指导。我们组建了一个世界一流的团队,帮助客户更快地构建更好的 ML 解决方案。
机器学习的成功取决于为用例找到最佳架构、微调模型并将它们部署到生产环境中。 所有这些都需要经验和技能的正确结合。 我们的专家加速计划提供必要的技术专长,以实施最先进的技术、做出更好的决策并更快地进入市场。
- 如何为我的用例微调(fine-tune)模型? 哪些基础架构(base architectures)?多少训练数据?
- 如何优化我的模型以获得最小延迟(latency)? 蒸馏(Distillation)。汇编(Compilation)。量化(Quantization)。修剪(Pruning)。 我们可以指导您完成每一步。
- 如何优化我的生产环境? 调整您的 CPU、GPU 或 AI 加速器配置以获得最大性能。
- 如何在 SageMaker 中使用 Transformers? 模型并行性(model parallelism)、数据并行性(data parallelism)、部署(deployment)等。
ChatGPT 快速入门

GPT
由 OpenAI 训练的大型语言模型,也称为 Generative Pretrained Transformer。
| 能力 | ||||
|---|---|---|---|---|
| GPT | 2018年 | 1.17亿 | 8G | 文本自动补全、问答、语句生成 |
| GPT-2 | 2019年 | 15亿 | 16G | 文本自动补全、问答、语句生成、命名实体识别、关系抽取 |
| GPT-3 | 2020年 | 1750亿 | 32G | 文本自动补全、问答、语句生成、命名实体识别、关系抽取、文本分类、翻译 |
| 2021年 | 1750亿 | 32G | 基于 GPT-3 微调的一系列模型 |
- 语言生成任务:文本自动补全、问答、语句生成
- 语言理解任务:命名实体识别、关系抽取、文本分类、翻译
模型能力
- 执行各种自然语言任务的 GPT-3
- 将自然语言翻译成代码的 Codex
- 创建和编辑原始图像的 DALL·E
价格
- 开始试用可在前 3 个月内使用 18 美元免费额度。
- 1000 tokens 为 1 个计量单位
- 一个汉字为 2 个 tokens
- 大约 4 英文字母为 1 个 tokens
- Tokenizer tool
Python 示例
调用 API 的参数 model: text-davinci-003 是基于 GPT-3 最好的模型,能力:复杂意图、因果关系、创建生成、搜索、总结等。