3 篇文章带有标签 “Llama3”

2024年5月23日星期四

MiniCPM-Llama3-V 2.5 端侧可用的 GPT-4V 级多模态大模型

MiniCPM-Llama3-V 2.5 是 MiniCPM-V 系列的最新版本模型，基于 SigLip-400M 和 Llama3-8B-Instruct 构建，共 8B 参数量，相较于 MiniCPM-V 2.0 性能取得较大幅度提升。MiniCPM-Llama3-V 2.5 值得关注的特点包括：

🔥 领先的性能。 MiniCPM-Llama3-V 2.5 在综合了 11 个主流多模态大模型评测基准的 OpenCompass 榜单上平均得分 65.1，以 8B 量级的大小超过了 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等主流商用闭源多模态大模型，大幅超越基于Llama 3构建的其他多模态大模型。

💪 优秀的 OCR 能力。 MiniCPM-Llama3-V 2.5 可接受 180 万像素的任意宽高比图像输入，OCRBench 得分达到 725，超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型，达到最佳水平。基于近期用户反馈建议，MiniCPM-Llama3-V 2.5 增强了全文 OCR 信息提取、表格图像转 markdown 等高频实用能力，并且进一步加强了指令跟随、复杂推理能力，带来更好的多模态交互体感。

🏆 可信行为。

2024年5月23日 15 分钟 4,190 字

2024年5月22日星期三

CogVLM2 智谱开源多模态大模型

在许多关键指标上有了显著提升，例如 TextVQA, DocVQA。
支持 8K 文本长度。
支持高达 1344 * 1344 的图像分辨率。
提供支持中英文双语的开源模型版本。

您可以在下表中看到 CogVLM2 系列开源模型的详细信息：

模型名称	cogvlm2-llama3-chat-19B	cogvlm2-llama3-chinese-chat-19B
基座模型	Meta-Llama-3-8B-Instruct	Meta-Llama-3-8B-Instruct
语言	英文	中文、英文
模型大小	19B	19B
任务	图像理解，对话模型	图像理解，对话模型
模型链接	🤗 Huggingface 🤖 ModelScope 💫 Wise Model	🤗 Huggingface 🤖 ModelScope 💫 Wise Model
体验链接	📙 Official Page	📙 Official Page 🤖 ModelScope
Int4模型	暂未推出	暂未推出
文本长度	8K	8K
图片分辨率	1344 * 1344	1344 * 1344

CogVLM2-Llama3中文问答

识别中文

提示词：输出图像中的文字

贵公司被确认为中标人。中标价格为：307.6万元。

请贵公司在收到本中标通知书之日起30天内，携带所有签订合同所需的资料(包括但不限于法定代表人授权书、技术规范、技术

2024年5月22日 10 分钟 2,710 字

CogVLM2 OCR Llama3 LLM 视觉问答 CogVLM

2024年4月19日星期五

Meta Llama 3

No Robots 是由熟练的人类注释者创建的包含 10,000 条指令和演示的高质量数据集。该数据可用于监督微调（SFT），使语言模型更好地遵循指令。 No Robots 是根据 OpenAI 的 InstructGPT 论文中描述的指令数据集进行建模的。

Llama 3 模型在两个拥有 24,000 GPU 的集群上进行了训练，使用的是超过 15 万亿 Token 的新公共在线数据。我们无法得知训练数据具体细节，但可以推测，更大规模且更细致的数据策划是性能提升的重要因素。Llama 3 Instruct 针对对话应用进行了优化，结合了超过 1000 万的人工标注数据，通过监督式微调（SFT）、拒绝采样、邻近策略优化（PPO）和直接策略优化（DPO）进行训练。

负责任使用指南 MLCommons AI Safety AI Safety Benchmarks Announcing MLCommons AI Safety v0.

2024年4月19日 3 分钟 759 字

Llama3 RUG LlamaGuard Ollama LLM Llama LLM