3 篇文章带有标签 “Leaderboard”

2024年1月5日星期五

Tabby - GitHub Copilot 的开源替代解决方案

Introducing the Coding LLM Leaderboard

更新日期：2023-11-13

在代码补全中，模型预测的是跨越多行的代码块。一种朴素的方法是直接将预测的代码块与实际提交的代码进行比较。虽然这种方法看起来理想，但它通常被认为是一个“过于稀疏”的度量标准。另一方面，下一行准确度可以作为整体代码块匹配准确度的可靠代理。

只有红色框内的内容被用于与真实值进行比较，以计算准确度指标。

brew cleanup tabby 命令的意思是清理所有旧版本的 tabby 包和缓存的 tabby 下载。

2024年1月5日 10 分钟 2,505 字

2024年1月4日星期四

DeepSeek Coder: Let the Code Write Itself

选择了两个通用基准来评估:

HumanEval: 用于测量从文档字符串合成程序的功能正确性的基准。它由 164 个 Python 编程问题组成。
MultiPL-E: 将 HumanEval 翻译为 18 种编程语言。

下面显示了 OctoCoder vs Base HumanEval prompt 的示例，在这里可以找到它。

如果您不想使用提供的 API apply_chat_template 加载模板 tokenizer_config.json，您可以使用以下模板与我们的模型聊天。将替换 ['content'] 为您的指令和模型之前（如果有）的响应，然后模型将生成对当前给定指令的响应。 You are an AI programming assistant, utilizing the DeepSeek Coder model, developed by DeepSeek Company, and you only answer questions related to computer science.

2024年1月4日 3 分钟 850 字

DeepSeek-Coder Leaderboard CodeLLM

2024年1月1日星期一

AI 大模型

Model	Average	ARC	HellaSwag	MMLU	TruthfulQA	Winogrande	GSM8K
mistralai/Mistral-7B-Instruct-v0.2	65.71	63.14	84.88	60.78	68.26	77.19	40.03
01-ai/Yi-34B-Chat	65.32	65.44	84.16	74.9	55.37	80.11	31.92
Qwen/Qwen1.5-14B-Chat	62.37	58.79	82.33	68.52	60.38	73.32	30.86
01-ai/Yi-6B-200K	56.76	53.75	75.57	64.65	41.56	73.64	31.39
Qwen/Qwen1.5-7B-Chat	55.15	55.89	78.56	61.65	53.54	67.72	13.57
01-ai/Yi-6B	54.08	55.55	76.57	64.11	41.96	74.19	12.13
deepseek-ai/deepseek-llm-7b-chat	59.38	55.8	79.38	51.75	47.98	74.82	46.55
internlm/internlm-20b-chat	55.53	55.38	78.58	58.53	43.22	78.77	18.73
deepseek-ai/deepseek-coder-7b-instruct-v1.5	50.89	48.55	72.35	50.45	46.73	66.85	20.39

2024年1月1日 4 分钟 1,136 字

LLM CodeLLM EmbeddingLLM Leaderboard