海外资源测评导航

tg4g海外资源测评导航

返回AI 应用海外资源 / AI 应用 / 模型评测排行榜 / mlemarena.top

🤖 AI 应用模型评测排行榜未知总部国内优化

mlemarena.top AI 应用测评

Name: mlemarena.top - 小语言模型盲测榜
Brand: mlemarena.top
Rating: 7.0 (1 reviews)

小语言模型盲测榜

7.0/10 中国可用

TTG4G 编辑组 ·更新于 2026-06-08 ·数据来源: ai_refine2 评测方法 ↗

数据来源

ai_refine2 · 最近更新 2026-06-13

⚡ 评分构成

五维加权 · 满分 10

性能 / 功能25% 7.0

性价比20% 7.0

中国可用度20% 10.0

口碑20% 6.0

售后 / 退款15% 6.5

各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。

行业深度解析AI 深度分析

一句话面向≤20B小语言模型的盲测A/B对战与社区Elo排行榜平台。

定价免费正文未提及收费或付费计划；平台当前可用于模型盲测投票与查看排行榜。

适合谁关注小语言模型评测的AI研究者、开发者、模型爱好者、开源社区参与者

核心功能≤20B参数小语言模型盲测A/B对战社区投票驱动的Elo评分覆盖编码、创意写作、数学、翻译、通用任务等类别模型身份投票前隐藏，投票后揭示使用本地/专用硬件运行模型代码开源，未来计划公开下载收集数据

AI能力与模型平台评测≤20B参数的小语言模型，正文提到包括Qwen、Gemma、Mistral、Llama、Phi、DeepSeek等；当前使用Ollama列出的模型。每场battle由两个预配置模型并排回答同一提示。

典型用例用于通过真实提示进行盲测A/B比较，覆盖coding、creative writing、mathematics、translation、general tasks等类别；用户可投票给Model A、Model B、Tie或Both are bad，并查看最终排行榜。

免费额度/试用未提及额度限制或试用机制；正文显示可参与对战投票，但Season 1已结束，未来会在新模型发布时再次运行。

定价未提及收费、订阅或商业计划。

中文支持正文未说明界面或模型评测是否支持中文；覆盖translation类别，但不等同于明确中文支持。

API与集成未提及API；站点代码开源在GitHub，可提交Issue或PR添加模型。

数据隐私使用session cookie仅用于在battle中匹配多样化模型，不跟踪其他信息；模型身份投票前不暴露；battle数据本地存储在SQLite；收集数据未来达到一定量后计划公开下载。

输出质量与局限盲测和Elo评分有助于降低模型品牌偏见，但结果依赖社区投票、提示分布和样本量；平台运行在私人家用电脑上，可用性可能受流量影响；硬件为Ryzen 7 7800X3D、RTX 4070 Ti SUPER、32GB RAM，适合反映特定本地硬件下的小模型表现。

中国访问未知

国内可用性🔎 查任意海外服务在中国能不能用 →

适用场景比较Qwen、Gemma、Mistral、Llama、Phi、DeepSeek等小模型在编码、创作、数学、翻译和通用任务上的主观表现；参与社区投票；参考Elo排行榜进行本地模型选型。

同类lmarena.ai、Hugging Face Open LLM Leaderboard、OpenCompass、Chatbot Arena

性价比8

易用7

服务5

综合7

优点

盲测机制有助于减少品牌偏见
聚焦小语言模型，定位清晰
支持多任务类别排名
公开硬件配置与Elo规则，透明度较高
仅使用会话Cookie用于模型匹配，隐私说明较明确

不足

当前运行在个人家用电脑上，可用性可能随流量波动
Season 1已结束，后续运行时间不确定
仅覆盖Ollama中列出的预配置模型，模型范围受限
未提供API、企业集成或批量评测能力信息
评测结果依赖社区投票和真实提示分布，严谨性弱于标准化基准测试

深度测评

TG4G · 2026-06-08 更新 · 仅供参考

是什么

MLEM Arena（Model Language Evaluation Matrix）是一个面向≤20B参数小语言模型的盲测A/B评测平台。用户输入真实提示后，两个预配置模型并排回答，平台在投票前隐藏模型身份，用户可选择Model A、Model B、平局或都不好。Season 1已完成，覆盖42个模型和数千场battle，未来会在新模型发布后再次运行。

核心能力与评测机制

平台重点比较Qwen、Gemma、Mistral、Llama、Phi、DeepSeek等小模型，并按编码、创意写作、数学、翻译和通用任务等类别形成排名。每个模型初始Elo为1000，投票后按K=24的标准Elo规则更新，平局和“都不好”按0.5/0.5处理。其价值在于通过盲测减少品牌和参数规模带来的先验偏见，更贴近用户主观体验。

定价、开源与隐私

正文未提到任何收费计划，当前可理解为免费社区项目。站点代码已开源在GitHub，允许提交Issue或PR添加遗漏模型。隐私方面，平台仅使用session cookie来保证battle中模型匹配更丰富，声明不追踪其他信息；battle数据本地存储在SQLite，并计划在数据量充足后公开下载。

优缺点

优点是定位清晰、规则透明、覆盖多类别任务，并公开了运行硬件：Ryzen 7 7800X3D、RTX 4070 Ti SUPER和32GB RAM，有助于理解结果的本地推理背景。局限也明显：平台目前运行在个人家用电脑上，可用性可能随流量波动；Season 1已结束，下一轮时间不确定；模型范围依赖Ollama列表和预配置；社区投票结果适合参考，但不能替代严格标准化基准。

适合谁与中国访问

它适合AI开发者、研究者、开源模型爱好者在选择小模型时参考主观质量，尤其适合比较本地可运行模型在编码、翻译和通用任务中的表现。正文未提供中国大陆访问、支付或网络可达性信息，因此china_access判定为未知。若需要更成熟的替代方案，可关注lmarena.ai、Hugging Face Open LLM Leaderboard、OpenCompass等。

本测评基于公开资料整理,不构成购买建议,请以 mlemarena.top 官网实际信息为准。

📢 订阅 TG4G 电报频道

每日精选海外资源 + 国内可用性速报 · 也可在 @amzseo_bot 直接搜

加入频道 →

中文卖点

对比20B以下小模型，适合选型和模型研究参考。

官网快照

/shot/mlemarena-top.png

mlemarena.top

快照生成中 · 后端每周自动抓取官网首页

价格走势

当前价 · 仅供参考

价格未公开当前定价

价格采集自官网公开页面,实时更新;历史走势数据采集中,暂无足够历史样本。下单请以官网实时价为准。

用户评价

综合评分

7.0/10

TG4G 综合评分

评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。

常见问题

mlemarena.top 是一家未知的AI 应用 (模型评测排行榜)服务商. 本页收录其「小语言模型盲测榜」套餐. 对比20B以下小模型，适合选型和模型研究参考.

mlemarena.top 综合评分 7.0/10, 总部未知. 是什么 MLEM Arena（Model Language Evaluation Matrix）是一个面向≤20B参数小语言模型的盲测A/B评测平台。用户输入真实提示后，两个预配置模型并排回答，平台在投票前隐藏模型身份，用户可选择Model A、Model B、平局或都不好。Season 1已完成，... 完整深度测评见本页下方.

mlemarena.top 在中国大陆有较好的直连体验, 多数地区无需代理即可访问. 该商家总部位于未知, 主要面向海外市场.

访问 mlemarena.top 官网完成注册即可使用. 注册一般需要邮箱 (推荐 Gmail/Outlook) 和支付方式. 多数海外服务支持信用卡 / PayPal / 加密货币. 完整流程见本页"前往官网"按钮.

浏览其他大类

🌾 农业食品 🔗 API 数据 🚪 API 网关 🧊 3D素材 🚗 汽车出行 🗃 备份容灾 📋 公司合规 📡 智能盒子 🧱 建站模板 🌐 CDN 💬 聊天 App ☁ 网盘云盘 📖 漫画网文 ✉ 通讯邮箱 🏢 跨国名企 💰 加密 🗄 托管数据库 🏷 比价优惠 🎨 设计创意 🔧 开发工具 📡 DNS 解析 🌍 域名 ⬇ 下载软件 🛒 电商 📚 教育课程 📧 邮件发送 ⚡ 能源环保 🎫 活动票务 🎪 会展展会 📤 文件传输 🏦 金融钱包 📝 表单调研 💭 论坛社区 💸 众筹融资 🎮 游戏服务 🎮 游戏市场 🕹 游戏平台 🎁 订阅礼品卡 🏛 政府机构 🎯 GPU 算力 🔌 硬件 IoT 🩺 医疗健康 👔 招聘远程 🖼 图片灵感 🛡 保险 💼 求职招聘 📒 知识笔记 ⚖ 法务财税 📍 本地生活 📦 物流货运 🔎 生活查询 🗺 地图导航 📈 营销 SEO 📺 流媒体订阅 🎞 家庭影音 📰 新闻资讯 🤝 公益慈善 📄 办公协作 🌍 国际组织 ☁ 应用部署 🎛 主机面板 🔑 密码安全 💳 支付 🐾 宠物 👕 印刷定制 🎙 播客有声 🔌 代理 ❓ 问答内容 🏠 房产租售 ⚡ 实时通信 🖥 远程桌面 🗂 资源站 ⚙ SaaS ♻ 二手交易 🛡 安全 📱 短视频直播 📲 接码虚拟号 💬 社交约会 🔐 SSL 证书 💾 云存储 🎓 留学教育 🎧 在线客服 🧰 在线工具 🌐 翻译本地化 ✈ 旅游出行 🏛 全球大学 🚀 加速器 VC ▶ 视频平台 🎬 视频托管 🔒 VPN 隐私 🖥 服务器 🌐 虚拟主机 🔏 零信任组网