方法论
AI Jupyter 如何把嘈杂的 AI 信号整理成实用排名
AI Jupyter 将公开基准、官方价格、本地硬件限制和编辑审查结合起来, 形成适合开发者继续测试的对比页面。
评分公式
质量分乘以来源置信度,再对缺失来源做小幅不确定性调整。
更新频率
核心数据由定时任务检查,高价值页面会显示刷新日期。
编辑原则
排名是实用候选清单,不是保证、广告位或合规认证。
评分公式
排名先把来源分数归一化到 0 到 100,再按不同页面的任务权重加权,最后根据覆盖度调整置信度。
adjusted score = weighted quality score x confidence blend - missing-source uncertainty
- 选择用户意图,例如代码、写作、数学、图像生成或本地部署。
- 选择真正衡量该意图的来源,而不是只依赖一个通用榜单。
- 把来源行归一化到可比较的 0 到 100 区间。
- 根据任务适配度、时效、测量质量和覆盖度应用权重。
- 当模型缺失重要来源时降低置信度。
- 发布结果时附上来源链接、限制说明和决策建议。
来源权重表
| 页面类型 | 主要来源 | 权重规则 |
|---|---|---|
| 代码 | Arena.ai Code Arena、Vals SWE-bench、Vals Vibe Code、Vellum、Artificial Analysis | 每个来源约 10% 到 35% |
| 写作 | 创意写作榜单、长文写作基准、通用文本偏好来源 | 每个来源约 10% 到 35% |
| 数学 | ProofBench、Riemann-bench、AIME 类来源、通用智能来源 | 每个来源约 10% 到 35% |
| 图像生成 | Text-to-image Arena 和图像质量榜单 | 每个来源约 35% 到 65% |
| 本地模型 | 硬件适配、内存适配、运行时支持、Ollama pulls、Hugging Face downloads | 按场景评分 |
| API 价格 | 仅使用官方提供商价格页,可比较时再做归一化 | 不纳入转售路由价格 |
更新频率
- Ranking、本地模型、API 价格和 AI Radar 快照都设计为通过定时数据任务刷新。
- 如果来源改版或阻止自动读取,相关行会保留,但置信度会降低,直到再次核对来源。
- 当解释、来源说明或决策建议需要更清楚时,页面也会进行编辑更新。
更正政策
- 模型名称、价格、来源链接、发布日期或基准解释错误时,会优先更正。
- 当两个官方来源冲突时,优先采用日期和计费上下文最清楚的提供商自有页面。
- 更正应保留证据路径,而不是静默重写排名。
利益冲突政策
广告主、联盟伙伴、提供商或合作方不能控制排名权重、更正决定、来源选择或模型位置。 商业关系必须与编辑排名分开披露。
已知限制
- 公开榜单无法覆盖每个模型、地区、安全设置、延迟档位或部署方式。
- 赢得某个基准的模型,仍可能在私有工作流中失败,因为提示词、工具、上下文和策略设置不同。
- 价格可能比爬虫刷新更快变化,生产采购前仍应核对官方页面。
- 缺失来源代表不确定性,不代表模型一定弱。
示例计算
假设一个代码模型在三个来源上分别得到 96、91 和 88 分,对应权重为 35%、25% 和 20%。 如果它缺失两个小来源,总权重为 20%,AI Jupyter 不会把缺失行记为 0, 而是把可用质量分与置信度调整结合起来。
可用质量分
92.1
基于可用来源的加权平均。
覆盖置信度
80%
缺失来源会降低确定性。
发布分数
89.4
用于对比,不是实验室断言。