构建自主答题的智能体

2025-02-18 2 minute read

目标

这里想探索使用多模态大模型答题的技术方案，包含单选题、多选题、判断题，最终构建自主答题的智能体。

工作流程：🏞️ -> MLM（多模态大模型）-> 答案

📝思路一

直接使用多模态大模型读题（转成文字），然后检索答案，把题和答案组合的提示词输入给语言大模型。

我使用了 Ollama 调用多模态大模型 minicpm-v:8b 来生成文字。llava:7b 的效果不好。

代码示例：

import ollama

response = ollama.chat(
	model="minicpm-v:8b",
	messages=[
		{
			'role': 'user',
			'content': '读取图像中的题。',
			'images': ['ti.png']
		}
	]
)

print(response['message']['content'])

这幅图片显示的是一个手机屏幕截图，内容是一个关于信息安全的多选题目界面。屏幕上部展示了时间“10:12”和信号、电池状态等图标。

中间部分是问题区域，“每月一考”的标题下面是一道多选题：“根据信息安规规定，升级（）、升级（）或（）版本前，应确认其兼容性及对业务系统的影响。”

选项包括：
A. 特征库
B. 操作系统
C. 数据库
D. 中间件版本

屏幕底部有“上一题”和“下一题”的按钮。

小模型对指令的理解能力有限。

🏞️思路二

把题的图像和答案（文字）组合的提示词输入给多模态大模型。

使用 Ollama 调用多模态大模型 minicpm-v:8b 和 llava:7b 进行测试达不到预期的效果。

代码示例：

import ollama

response = ollama.chat(
	model="minicpm-v:8b",
	messages=[
		{
			'role': 'user',
			'content': '使用下面的 `参考答案` 回答图像中的问题，注意图像中的选项是乱序的。\n\n## 参考答案\n```\n题目：根据信息安规规定，升级（    ）、（    ）或（    ）版本前，应确认其兼容性及对业务系统的影响。\n选项：A. 操作系统,B. 数据库,C. 中间件版本,D. 特征库\n答案：A,B,C\n```\n',
			'images': ['ti.png']
		}
	]
)

print(response['message']['content'])

根据信息安规规定，在升级操作系统、数据库或中间件版本之前，应该确认这些更新的兼容性及其对业务系统的影响。因此，参考答案是：

1. 操作系统 (选项 A)
2. 数据库 (选项 C)
3. 中间件版本 (选项 B)

所以正确答案为：A, C, 和B

单选题（Single Choice）

思路一

提示词

单选题

根据信息安规规定，在工作票制度中, 三类业务系统的( )等检修工作是应填用信息工作任务单或信息工作票的工作。 A、版本升级、漏洞修复、数据操作 B、系统下线、版本升级、数据操作 C、系统下线、版本升级、漏洞修复 D、版本升级、漏洞修复、系统下线

使用下面的 参考答案 回答上面的 问题。参考答案是为了告诉你哪个内容组合是正确的，但参考答案中的选项字母是针对参考答案自身选项顺序的，并不一定直接对应到原始问题的选项。你的任务是：

确定参考答案中哪个选项的内容是正确的，因为原始问题中选项可能是乱序的。
在原始问题提供的选项 (A, B, C, D) 中，找到包含相同内容的选项。
最终答案是原始问题中找到的选项的字母。
不要输出答案以外的内容。

参考答案

题目：根据信息安规规定，在工作票制度中, 三类业务系统的(    )等检修工作是应填用信息工作任务单或信息工作票的工作。
选项：A. 版本升级、漏洞修复、系统下线,B. 版本升级、漏洞修复、数据操作,C. 系统下线、版本升级、数据操作,D. 系统下线、版本升级、漏洞修复
答案：B

多选题（Multiple Choice）

思路一

提示词1

问题

1、根据信息安规规定，升级（）、（）或（）版本前，应确认其兼容性及对业务系统的影响。

选项部分： A. 特征库 B. 操作系统 C. 数据库 D. 中间件版本

使用下面的 参考答案 回答上面的 问题，注意 问题 中的选项是乱序的，答案请以逗号分隔的字母形式输出。

参考答案

题目：根据信息安规规定，升级（    ）、（    ）或（    ）版本前，应确认其兼容性及对业务系统的影响。
选项：A. 操作系统,B. 数据库,C. 中间件版本,D. 特征库
答案：A,B,C

提示词2

使用 参考答案 回答 问题。

问题 中的选项是乱序的
答案请以逗号分隔的字母形式输出，例如：A,B,C。

问题

1、根据信息安规规定，升级（）、（）或（）版本前，应确认其兼容性及对业务系统的影响。

选项部分： A. 特征库 B. 操作系统 C. 数据库 D. 中间件版本

参考答案

题目：根据信息安规规定，升级（    ）、（    ）或（    ）版本前，应确认其兼容性及对业务系统的影响。
选项：A. 操作系统,B. 数据库,C. 中间件版本,D. 特征库
答案：A,B,C

提示词3

多选题

1、根据信息安规规定，升级（）、（）或（）版本前，应确认其兼容性及对业务系统的影响。

选项部分： A. 特征库 B. 操作系统 C. 数据库 D. 中间件版本

确定参考答案中哪个选项的内容是正确的，因为原始问题中选项可能是乱序的。
在原始问题提供的选项 (A, B, C, D) 中，找到包含相同内容的选项。
最终答案是原始问题中找到的选项的字母，并以逗号分隔的形式输出。
不要输出答案以外的内容。

参考答案

题目：根据信息安规规定，升级（    ）、（    ）或（    ）版本前，应确认其兼容性及对业务系统的影响。
选项：A. 操作系统,B. 数据库,C. 中间件版本,D. 特征库
答案：A,B,C

提示词2的结果不如提示词1的好，提示词3的结果最棒，写好提示词非常重要。

思路二

提示词

[题的图像]

使用下面的 参考答案 回答图像的 问题，注意 问题 中的选项是乱序的，答案请以逗号分隔的字母形式输出。

参考答案

题目：根据信息安规规定，升级（    ）、（    ）或（    ）版本前，应确认其兼容性及对业务系统的影响。
选项：A. 操作系统,B. 数据库,C. 中间件版本,D. 特征库
答案：A,B,C

测试结果

✅ 表示回答正确
❌ 表示回答错误
- 表示模型不支持图像输入

Gemini (Google)

模型	📝思路一（提示词1）	📝思路一（提示词3）	🏞️思路二
Gemini 2.0 Flash	✅	✅	❌
Gemini 2.0 Flash Thinking Experimental	✅	✅	✅
Gemini 1.5	❌	✅	❌

Qwen (阿里巴巴)

模型	📝思路一（提示词1）	📝思路一（提示词3）	🏞️思路二
Qwen2.5-Max	✅	✅	-
Qwen2.5-Plus	❌	✅	-
Qwen2.5-VL-72B-Instruct	❌	✅	✅
Qwen2.5-14B-Instruct-1M	❌	❌	-
QwQ-32B-Preview	❌	❌	-
Qwen2.5-Coder-32B-Instruct	✅	✅	-

Kimi (月之暗面)

模型	📝思路一（提示词1）	📝思路一（提示词3）	🏞️思路二
Kimi	✅	✅	✅
k1.5 长思考	❌	✅	❌

DeepSeek (深度求索)

模型	📝思路一（提示词1）	📝思路一（提示词3）	🏞️思路二
DeekSeek-V3	❌	❌	❌
DeekSeek-R1	❌	✅	✅

GitHub Copilot

模型	📝思路一（提示词1）
Claude 3.5 Sonnet (Preview)	✅
Gemini 2.0 Flash (Preview)	✅
GPT-4o	✅
o1 (Preview)	✅
o3-mini (Preview)	✅

Poe

模型	📝思路一（提示词1）	📝思路一（提示词3）	🏞️思路二
Gemini-2.0-Flash	✅	✅	✅
GPT-4o-Mini	✅	✅	✅
GPT-4o	❌	✅	✅
Claude-3-Haiku	❌	❌	❌
Assistant	❌	✅	❌
Deepseek-V3-FW	❌	✅	-
Llama-3-70b-Groq	❌	✅	-

Chatbot Arena

模型	📝思路一（提示词1）	📝思路一（提示词3）	🏞️思路二
grok-3	❌	✅	❌
o3-mini	✅	✅	-
mistral-large-2411	✅	✅	-
amazon-nova-pro-v1.0	❌	❌	❌
hunyuan-large-2025-02-10	❌	❌	-
yi-lightning	❌	❌	-
glm-4-plus	❌	❌	-
step-2-16k-exp-202412	❌	✅	-
step-1o-vision-32k-highres	❌	✅	✅
llama-3.1-405b-instruct-bf16	❌	✅	-
llama-3.1-70b-instruct	❌	✅	-
llama-3.2-vision-90b-instruct	❌	❌	❌
llama-3.1-tulu-3-8b	❌	❌	-
llama-3.1-tulu-3-70b	✅	✅	-
nemotron-4-340b	❌	❌	-
reka-core-20240904	❌	✅	❌
reka-flash-20240904	❌	❌	❌
jamba-1.5-large	❌	❌	-
athene-v2-chat	❌	✅	-
c4ai-aya-expanse-32b	❌	✅	-
command-r-plus-08-2024	❌	✅	-
qwen2.5-coder-32b-instruct	✅	-
codestral-2405	❌	❌	-
qwq-32b-preview	❌	❌	-
phi-4	❌	❌	-

Ollama

模型	📝思路一（提示词1）	📝思路一（提示词3）	🏞️思路二
DeepSeek-R1-Distill-Qwen-7B	❌	❌	-
DeepSeek-R1-Distill-Qwen-14B	❌	❌	-
DeepSeek-R1-Distill-Qwen-32B	❌	✅	-
llava:7b			❌
minicpm-v:8b			❌
llama3.2-vision:latest			❌