视觉问答 Phi - 标签 - 军舰的日志

Phi-3-vision-128k-instruct 微软开源多模态大模型

Phi-3 Vision 是一个轻量级、最先进的开放多模态模型，基于数据集构建，其中包括合成数据和经过过滤的公开网站，重点关注文本和视觉方面的高质量推理密集数据。该模型属于 Phi-3 模型系列，多模式版本可支持 128K 上下文长度（以 Token 为单位）。该模型经历了严格的增强过程，结合了监督微调和直接偏好优化，以确保精确的指令遵守和稳健的安全措施。

模型参数 4B。

该模型旨在广泛用于英语商业和研究用途。该模型为通用人工智能系统和应用程序提供了视觉和文本输入功能，这些系统和应用程序需要

内存/计算受限的环境；
延迟限制场景；
一般图像理解；
光学字符识别；
图表和表格的理解。

我们的模型旨在加速对高效语言和多模态模型的研究，作为生成人工智能驱动功能的构建块。

我们的模型并非针对所有下游目的而专门设计或评估。开发人员在选择用例时应考虑语言模型的常见限制，并在特定下游用例中使用之前评估和减轻准确性、安全性和公平性，特别是对于高风险场景。开发人员应了解并遵守与其用例相关的适用法律或法规（包括隐私、贸易合规法等）。

Microsoft_Phi-3-Vision-128k Space

提示词：对图像文字进行识别

这段文字是一个人的自己写作，表达了对学生在学校和家庭生活中的看法。

提示词：这张图片上写了什么？

这张图片上写了一段关于学生在学校后备课的观点。

👍 提示词：图像中的手写英文是什么？

2024年5月24日 9 分钟 2,444 字

1 篇文章带有标签 “视觉问答 Phi”

2024年5月24日星期五

Phi-3-vision-128k-instruct 微软开源多模态大模型

1 篇文章带有标签 “视觉问答 Phi”

2024年5月24日 星期五

Phi-3-vision-128k-instruct 微软开源多模态大模型

2024年5月24日星期五