7 篇文章带有标签 “vlm”

2026 年飞马图像生成

提示词(DeepSeek)

2026年新年来了,生成一张红色的飞马图像。以这个为基础写个生成图像的提示词

一只雄伟的飞马(天马)在绚烂的夜空中展翅翱翔,周围环绕着金色与橙红色的新年烟火,鬃毛与翅膀边缘散发柔和光芒,背景为深红色星空与闪烁的星光,风格融合奇幻艺术与节日喜庆,色彩以红色、金色为主,充满动态与希望感,4K高清,细节精致,史诗光影。

生成结果

ChatGPT

豆包

Gemini

Grok

可灵 2.1

龙猫

MiniMax

千问

元宝

DeepSeek-OCR 研究与实测

DeepSeek-OCR:上下文光学压缩

DeepSeek-OCR 架构

训练数据

数据组成

数据标注

训练流程

训练 DeepEncoder

  • 方法: 遵循 Vary,使用紧凑语言模型和下一词元预测(next token prediction)框架进行训练。
  • 数据: 使用所有 OCR 1.0OCR 2.0 数据,以及从 LAION 数据集中采样的 1 亿(100M)通用数据。
  • 训练细节: 训练 2 个 epoch,批次大小为 1280,使用 AdamW 优化器,配合余弦退火(cosine annealing)调度器,学习率为 5e-5。训练序列长度为 4096

训练 DeepSeek-OCR

  • 时机: DeepEncoder 准备好后进行。
  • 数据: 使用训练数据。
  • 并行策略: 采用流水线并行(PP),模型被分为 4 部分:
    • DeepEncoder (PP0, PP1)
      • PP0: 包含 SAM 和压缩器(作为视觉词元分析器),参数冻结
      • PP1: 包含 CLIP 部分(作为输入嵌入层),权重不冻结,参与训练。
    • 语言模型 (PP2, PP3): DeepSeek3B-MoE 共有 12 层,PP2 和 PP3 各放置 6 层。
  • 硬件与批次: 使用 20 个节点(每个节点配备 8 块 A100-40G GPU)进行训练,数据并行(DP)为 40,全局批次大小为 640
  • 优化器: 使用 AdamW 优化器,配合基于步数的调度器(step-based scheduler),初始学习率为 3e-5
  • 训练速度: 纯文本数据:900 亿词元/天(90B tokens/day);多模态数据:700 亿词元/天(70B tokens/day)。

Google Nano Banana

输入图像 Google AI Studio Gemini 2.5 Flash
Generate an image of a banana wearing a costume. 生成一张香蕉穿戏服的图片。
这是一张有破损的绝缘子的图像,在其它部位生成类似的训练样本
生成一个鸟窝在杆塔上
生成一寸和两寸的学生照,要求蓝色背景,衣服换成校服
1. 复古优雅风:想象一下,带有荷叶边和蕾丝的维多利亚时代风格长裙,搭配精致的头饰和手套。
2. 未来科技感:尝试一些银色或金属质感的服装,线条简洁,可能还有一些发光的元素,展现未来主义的时尚。
3. 波西米亚风情:飘逸的印花长裙,流苏点缀,配上宽檐帽和层叠的项链,打造自由奔放的感觉。
4. 街头潮流:宽松的连帽衫、破洞牛仔裤、时尚运动鞋,再搭配一顶棒球帽,展现酷炫的街头风格。
5. 古典仙气风:轻纱曼舞的汉服或仙女裙,色彩柔和,刺绣精致,营造出超凡脱俗的意境。
6. 职业干练风:修身的西装外套,搭配衬衫和铅笔裙,展现自信和专业的职场女性形象。
7. 运动休闲风:舒适的运动套装,搭配时尚的运动鞋,既适合健身,也适合日常休闲。
8. 哥特暗黑风:黑色蕾丝、丝绒材质的礼服,搭配银饰和深色妆容,营造出神秘而华丽的哥特式美感。
9. 异域民族风:尝试一些具有民族特色的服装,比如印度的纱丽,日本的和服,或者非洲的蜡染服装,展现多元文化的魅力。

探索多模态大模型 GLM-4.1V-Thinking

本文档介绍了多模态大模型GLM-4.1V-Thinking,这是一个基于 GLM-4-9B-0414 的开源视觉语言模型,通过强化学习显著提升了其性能。文档详细阐述了该模型在设计图转代码(Design2Code)任务上的卓越表现,能将设计图转换为高质量的HTML/CSS代码,并提供了与Qwen-2.5-VL-32B-Instruct的对比示例。此外,资源还展示了如何通过智谱API免费使用GLM-4.1V-Thinking进行图像识别,并给出了一个安全检测系统的代码示例,该系统能够识别图像中的火灾、烟雾以及人员安全帽佩戴情况,并进行坐标标注,强调了模型在实际应用中的潜力。

模型介绍

基于 GLM-4-9B-0414 基座模型,我们推出新版VLM开源模型 GLM-4.1V-9B-Thinking ,引入思考范式,通过课程采样强化学习 RLCS(Reinforcement Learning with Curriculum Sampling)全面提升模型能力, 达到 10B 参数级别的视觉语言模型的最强性能,在18个榜单任务中持平甚至超过8倍参数量的 Qwen-2.5-VL-72B。 论文 GLM-4.1V-Thinking:通过可扩展强化学习实现通用多模态推理

模型文件

在线体验

基准性能

探索多模态大模型 Qwen2.5-VL

本文档提供了一篇关于Qwen2.5-VL 多模态大模型的详细指南,涵盖了从模型架构、性能到实际部署和使用的各个方面。它不仅介绍了如何下载不同版本(如 3B 和 7B Instruct)的模型,还提供了安装和启动模型的命令行指令。此外,文档还展示了如何通过 cURL 命令测试模型,并给出了一个使用 OpenAI API 与 Qwen2.5-VL 进行交互的 Python 示例代码,该代码专注于图像中的火灾、烟雾和安全帽佩戴情况检测,支持本地和网络图片。

Qwen2.5-VL

模型架构

模型性能

魔搭下载

在下载前,请先通过如下命令安装 ModelScope

pip install modelscope

Qwen2.5-VL-3B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir Qwen2.5-VL-3B-Instruct

Qwen2.5-VL-7B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

默认存储到 ~/.

OSWorld:在真实计算机环境中为开放式任务进行多模态代理基准测试

参考

Abstract(摘要)

Autonomous agents that accomplish complex computer tasks with minimal human interventions have the potential to transform human-computer interaction, significantly enhancing accessibility and productivity. However, existing benchmarks either lack an interactive environment or are limited to environments specific to certain applications or domains, failing to reflect the diverse and complex nature of real-world computer use, thereby limiting the scope of tasks and agent scalability.