小语言模型盲测榜
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
MLEM Arena(Model Language Evaluation Matrix)是一个面向≤20B参数小语言模型的盲测A/B评测平台。用户输入真实提示后,两个预配置模型并排回答,平台在投票前隐藏模型身份,用户可选择Model A、Model B、平局或都不好。Season 1已完成,覆盖42个模型和数千场battle,未来会在新模型发布后再次运行。
平台重点比较Qwen、Gemma、Mistral、Llama、Phi、DeepSeek等小模型,并按编码、创意写作、数学、翻译和通用任务等类别形成排名。每个模型初始Elo为1000,投票后按K=24的标准Elo规则更新,平局和“都不好”按0.5/0.5处理。其价值在于通过盲测减少品牌和参数规模带来的先验偏见,更贴近用户主观体验。
正文未提到任何收费计划,当前可理解为免费社区项目。站点代码已开源在GitHub,允许提交Issue或PR添加遗漏模型。隐私方面,平台仅使用session cookie来保证battle中模型匹配更丰富,声明不追踪其他信息;battle数据本地存储在SQLite,并计划在数据量充足后公开下载。
优点是定位清晰、规则透明、覆盖多类别任务,并公开了运行硬件:Ryzen 7 7800X3D、RTX 4070 Ti SUPER和32GB RAM,有助于理解结果的本地推理背景。局限也明显:平台目前运行在个人家用电脑上,可用性可能随流量波动;Season 1已结束,下一轮时间不确定;模型范围依赖Ollama列表和预配置;社区投票结果适合参考,但不能替代严格标准化基准。
它适合AI开发者、研究者、开源模型爱好者在选择小模型时参考主观质量,尤其适合比较本地可运行模型在编码、翻译和通用任务中的表现。正文未提供中国大陆访问、支付或网络可达性信息,因此china_access判定为未知。若需要更成熟的替代方案,可关注lmarena.ai、Hugging Face Open LLM Leaderboard、OpenCompass等。
本测评基于公开资料整理,不构成购买建议,请以 mlemarena.top 官网实际信息为准。
对比20B以下小模型,适合选型和模型研究参考。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。