8 篇文章带有标签 “生成式AI”

腾讯混元多模态生成模型

本文档重点介绍了腾讯混元多模态生成模型,强调其在人工智能大模型技术革命中的作用。还概述了该模型在图像和视频生成方面的能力,并展示了其在游戏、社交媒体等领域的广泛应用。特别是,它详细阐述了文本到图像生成的速度提升,以及在游戏皮肤制作和特效创建中的实际应用。此外,该模型还被用于生成表情包多媒体内容,展示了腾讯在视觉生成技术方面的雄心。

【生成式AI时代下的机器学习(2025)】第十二讲:概述语音语言模型发展历程

本文档提供了关于语音大型语言模型 (Speech LLM) 的全面概述。内容从语音标记化 (speech tokenization) 的基本概念开始,这是一种将连续语音信号转换为离散单元的方法。文中还讨论了各种语音标记器类型 (types of speech tokenizers),包括 SSL 和神经编码器,并探讨了不同的解码策略 (decoding strategies) 对生成质量的影响。此外,还深入分析了训练语音 LLM 的方法 (methods for training Speech LLM),包括如何利用文本 LLM (Text LLM) 作为基础模型,并通过反馈对齐 (alignment with feedback) 优化模型。最后,概述还触及了全双工语音对话 (full-duplex speech conversation) 等前沿应用,并提供了评估语音模型 (evaluating speech models) 的框架。

【生成式AI时代下的机器学习(2025)】第十一讲:浅谈神奇的 Model Merging 技术

本文档深入探讨了模型合并(Model Merging)的技术,特别是利用任务向量(Task Vector)来增强或改变基础模型(Foundation Model)的功能。它们展示了如何通过对模型参数进行加减运算来实现不同的目标,例如让语言模型减少生成有毒内容,或者构建一个多任务模型。此外,文档还探讨了高级合并方法以及在规模化应用中模型合并的考虑因素,并提出了任务向量可以被小团队专门开发、出售和交换的未来愿景。

【生成式AI时代下的机器学习(2025)】第十讲:人工智慧的微创手术 — 浅谈 Model Editing

本文档深入探讨了模型编辑,这是一种用于更新人工智能模型知识的技术,而不需进行完全重新训练。它们首先通过对比模型编辑与传统的后训练(Post Training)来解释其概念,其中前者侧重于植入特定事实,而后者旨在学习新技能。接着详细阐述了模型编辑的评估标准,包括可靠性、泛化性和局部性,并介绍了两种主要方法:不改变模型参数改变模型参数。展示了Rank-One Model Editing (ROME) 方法,它通过直接修改模型内部参数来实现知识更新。最后,还介绍了超网络(Hypernetwork),这是一种让人工智能学习如何进行模型编辑的技术,展示了其训练和测试过程。

【生成式AI时代下的机器学习(2025)】第九讲:谈谈有关大型语言模型评估的几件事

本文档讨论了大型语言模型的评估,重点关注其推理能力记忆效应。文档展示了不同的基准测试结果,例如DeepSeekOpenAI模型在推理任务上的表现,以及模型回答可能来自“记忆”而非推理的准确性下降情况。此外,还介绍了人工通用智能(ARC-AGI)的抽象推理语料库作为一种评估框架,并探讨了聊天机器人竞技场(Chatbot Arena)及其Elo评分系统,用于衡量和比较不同模型在实际用户互动中的表现,包括情感和风格控制

LLM 推理在软件任务中扮演什么角色?

大型语言模型(LLM)的工作原理根植于模式匹配和对下一个词元的统计预测("随机鹦鹉")。从这种方法中产生的一个有些出人意料的能力是它们也能在一定程度上"推理"解决问题。有些模型的推理能力比其他模型更强,OpenAI的"o1"和"o3"模型是两个突出的推理模型,而DeepSeek的"R1"最近引起了很大轰动。但是当我们在编码任务中使用AI时,这种能力发挥什么作用呢?

剧透提醒:我还没有答案!但我有问题和想法。

我将从两个方面开始讨论,这两个方面在我的理解中是推理能力的限制,而且这些限制在编码环境中是相关的。然后我将分享我的想法,即推理在哪些编码任务中可能有用,在哪些任务中可能没用。

他们发现:

  1. 姓名和数字的变化会影响模型解决问题的性能。即使推理步骤完全相同(Sophie看她的侄子变成Anita看她的孙女,或者是12个毛绒玩具而不是8个),模型解决问题的性能也不一致,甚至比原始基准测试略有下降。
  1. 当问题的难度和规模增加时,性能进一步下降。
  1. 最后,他们发现在问题中添加无关信息对性能有很大的负面影响。

首先,这是一个很好的例子,说明为什么我们应该对LLM基准测试持保留态度。

在编码环境中,我发现最后一个发现特别有趣。

探索生成式人工智能

生成式人工智能和特别是大型语言模型(LLM)已迅速进入公众意识。像许多软件开发人员一样,我对其可能性感到好奇,但不确定它最终对我们的职业意味着什么。我现在在Thoughtworks担任一个角色,协调我们关于这项技术将如何影响软件交付实践的工作。我将在这里发布各种备忘录,描述我和同事们正在学习和思考的内容。

随着智能代理编码助手变得越来越强大,反应各不相同。有些人从最近的进步推断并声称,"一年后,我们将不再需要开发人员。"其他人则对AI生成代码的质量以及为初级开发人员准备应对这一变化的挑战表示担忧。

在过去几个月中,我定期使用Cursor、Windsurf和Cline中的智能代理模式,几乎完全用于更改现有代码库(而不是从头创建井字游戏)。总体而言,我对IDE集成的最新进展以及这些集成如何极大地提升工具辅助我的方式印象深刻。它们

  • 执行测试和其他开发任务,并尝试立即修复出现的错误
  • 自动识别并尝试修复代码检查和编译错误
  • 能够进行网络研究
  • 有些甚至集成了浏览器预览功能,可以捕获控制台错误或检查DOM元素

所有这些都带来了与AI令人印象深刻的协作会话,有时帮助我在创纪录的时间内构建功能和解决问题。

然而。

即使在那些成功的会话中,我也一直在干预、纠正和引导。而且我经常决定不提交更改。

生成式人工智能

生成式AI是指能够根据提示或指令创建新内容的AI系统。这些系统被训练于大量数据,学习识别模式并生成类似于训练数据的新输出。现代生成式AI多为基于神经网络架构的深度学习系统。

目前主导生成式AI讨论的是大型语言模型(LLMs)。这些是经过大量文本训练的模型,可以生成连贯的文本,预测给定上下文中最可能的下一个词。尽管基础架构可能很复杂,但我们可以将其视为一个复杂的自动补全系统。

LLMs展现出的能力远超过以前的生成系统,它们能够:

  • 以难以与人类创作区分的方式撰写文章、小说、诗歌或代码
  • 回答问题、提供建议、编写报告、总结文档
  • 理解上下文并保持对话连贯性
  • 同时处理多种语言
  • 理解代码并生成新代码

生成式AI已经在许多领域展示出其应用潜力:

开发人员正在使用生成式AI工具(如GitHub Copilot、Amazon CodeWhisperer和Google Duet AI)来加速编码过程。这些工具可以:

  • 生成样板代码
  • 提出完整函数和算法
  • 帮助编写测试
  • 解释现有代码
  • 重构代码以提高质量
  • 生成文档

生成式AI可以产生各种形式的内容:

  • 博客文章、社交媒体更新和营销文案
  • 个性化电子邮件和通信
  • 产品描述和目录
  • 视频脚本和广告文案

生成式AI正在改变企业与客户的互动方式:

  • 聊天机器人和虚拟助手
  • 智能响应建议
  • 自动票务分类和路由
  • 知识库生成和维护

从DALL-E到Midjourney等工具正在改变设计流程: 生成概念艺