8 篇文章带有标签 “nlp”

该文档详细介绍了 2023年全国行业职业技能竞赛，涵盖了多个技术任务。任务一侧重于语音处理，通过Python代码展示了如何利用腾讯云API进行语音识别和语音合成，包括音频文件的Base64编码转换和请求参数配置，并输出了实际的识别结果。任务二则聚焦于语音模型，阐述了声学模型的初始化、加载预训练模型以及语音识别的整个流程，并提到了模型训练的配置。任务三涉及文本处理，通过requests库抓取网页内容，并利用re、BeautifulSoup和lxml.etree等工具进行网页内容解析和文本提取，同时展示了文本清洗、数据扩充以及使用Stanford CoreNLP进行中文分词、词性标注和命名实体识别。任务四是数据分析与可视化，展示了如何从Excel文件中读取急诊科就诊数据，并计算男女比例、每日就诊人数和各诊室就诊人数，最终通过matplotlib库生成饼状图、柱状图和折线图进行数据可视化。

2023年全国行业职业技能竞赛第二届全国电子企业职业技能竞赛

任务一

任务1.1

任务1.2

2023-11-25 08:00

speech-to-text text-to-speech nlp web-scraping tencent-cloud visualization beautifulsoup stanford-corenlp matplotlib

2023年10月16日星期一

Private GPT 中文 Embeddings 模型测试

文档

这里使用的文档是：合作方人员出勤及结算管理信息化支撑规则

一、出勤打卡
出勤打卡包括：正常出勤打卡、出差打卡、外出打卡、加班打卡。

1. 正常出勤打卡：指正常的出勤办公打卡。
（1）全天出勤打卡：上班打卡：8点30分之前打卡。下班打卡：17点30分之后打卡。
（2）半天出勤打卡。上午打卡时间段：8点30分之前、12点之后。下午时间段：13点之前，17点30分之后。
（3）打卡(考勤机或企业微信打卡)形式按部门要求为准，最小半天为统计单位。

2. 出差打卡：指出差地出勤办公或在途期间打卡。
（1）固定出差地打卡：打卡时间参照第1条正常出勤上下班打卡；无法定位有效范围的找部门管理员修改工作打卡位置。(具体按照各部门要求执行)
（2）出差在途打卡(使用手机外出打卡)。到车站坐车前打外出打卡一次，到达目的地后打外出打卡一次(往返同理)。下午出差的，上午需打正常出勤卡(上午正常出勤须闭环打卡)；上午到达出差地的，下午需打一次外出打卡或上下班打卡。

3. 外出打卡：指外出办事打卡。提外出申请后，可以打外出卡，打外出卡时间需在申请时间内：
（1）半天外出：如外出时间在上午(12点前) 或者下午(12点后)，则另外半天需正常出勤打卡。
（2）跨12点外出：如外出跨度期间包含12点，则12点前、12点后分别打外出卡即可记为合格出勤。
// ...

提示词模板使用以下上下文来回答最后的问题。

2023-10-16 08:00

rag embeddings llm privategpt chinese machine-learning nlp

2023年7月24日星期一

AI 大模型

🔥 大模型

🔥 Andrej Karpathy

🔥 李沐论文精读如何读论文 AlexNet ResNet 零基础多图详解图神经网络（GNN/GCN） GAN Transformer BERT Pre-training ViT 卷积神经网络的两个归纳偏置：1、locality（相同区域有相同的特征）；2、translation equivariance（平移等变性） local neighborhoods MAE Autoencoder 对比学习论文综述数据增强：Crop 和 Color 的组合最有效 MoCo CLIP How to Train Really Large Models on Many GPUs?

2023-07-24 08:00

llm gpt chatgpt openai ai generative-ai machine-learning deep-learning nlp computer-vision

2023年4月30日星期日

Hugging Face 快速入门

Hugging Face

Hugging Face 是所有机器学习任务的大本营。您可以在这里找到开始一项任务所需的内容：演示、用例、模型、数据集等等！

创建和托管很棒的机器学习演示

Solutions

Expert Acceleration Program（专家加速计划）- 加速您的 ML 路线图

从我们屡获殊荣的机器学习专家那里获得指导。我们组建了一个世界一流的团队，帮助客户更快地构建更好的 ML 解决方案。

机器学习的成功取决于为用例找到最佳架构、微调模型并将它们部署到生产环境中。所有这些都需要经验和技能的正确结合。我们的专家加速计划提供必要的技术专长，以实施最先进的技术、做出更好的决策并更快地进入市场。

如何为我的用例微调（fine-tune）模型？哪些基础架构（base architectures）？多少训练数据？

如何优化我的模型以获得最小延迟（latency）？蒸馏（Distillation）。汇编（Compilation）。量化（Quantization）。修剪（Pruning）。我们可以指导您完成每一步。

如何优化我的生产环境？调整您的 CPU、GPU 或 AI 加速器配置以获得最大性能。

如何在 SageMaker 中使用 Transformers？模型并行性（model parallelism）、数据并行性（data parallelism）、部署（deployment）等。

2023-04-30 08:00

hugging-face transformers model-deployment datasets computer-vision nlp audio machine-learning ai

2023年2月13日星期一

ChatGPT 快速入门

GPT

由 OpenAI 训练的大型语言模型，也称为 Generative Pretrained Transformer。

版本	发布时间	模型参数	GPU内存	能力
GPT	2018年	1.17亿	8G	文本自动补全、问答、语句生成
GPT-2	2019年	15亿	16G	文本自动补全、问答、语句生成、命名实体识别、关系抽取
GPT-3	2020年	1750亿	32G	文本自动补全、问答、语句生成、命名实体识别、关系抽取、文本分类、翻译
GPT-3.5	2021年	1750亿	32G	基于 GPT-3 微调的一系列模型

语言生成任务：文本自动补全、问答、语句生成
语言理解任务：命名实体识别、关系抽取、文本分类、翻译

OpenAI API

模型能力

执行各种自然语言任务的 GPT-3
将自然语言翻译成代码的 Codex
创建和编辑原始图像的 DALL·E

价格

开始试用可在前 3 个月内使用 18 美元免费额度。
1000 tokens 为 1 个计量单位
- 一个汉字为 2 个 tokens
- 大约 4 英文字母为 1 个 tokens
Tokenizer tool

Python 示例

调用 API 的参数 model: text-davinci-003 是基于 GPT-3 最好的模型，能力：复杂意图、因果关系、创建生成、搜索、总结等。

2023-02-13 08:00

chatgpt openai gpt llm prompt-engineering python api ai nlp

8 篇文章带有标签 “nlp”

2024年3月17日 星期日

2024年3月16日 星期六

2024年2月15日 星期四

2023年11月25日 星期六

2023年10月16日 星期一

2023年7月24日 星期一

2023年4月30日 星期日

2023年2月13日 星期一

2024年3月17日星期日

2024年3月16日星期六

2024年2月15日星期四

2023年11月25日星期六

2023年10月16日星期一

2023年7月24日星期一

2023年4月30日星期日

2023年2月13日星期一