方法论

AI Jupyter 如何把嘈杂的 AI 信号整理成实用排名

AI Jupyter 将公开基准、官方价格、本地硬件限制和编辑审查结合起来, 形成适合开发者继续测试的对比页面。

评分公式

质量分乘以来源置信度,再对缺失来源做小幅不确定性调整。

更新频率

核心数据由定时任务检查,高价值页面会显示刷新日期。

编辑原则

排名是实用候选清单,不是保证、广告位或合规认证。

评分公式

排名先把来源分数归一化到 0 到 100,再按不同页面的任务权重加权,最后根据覆盖度调整置信度。

adjusted score = weighted quality score x confidence blend - missing-source uncertainty
  1. 选择用户意图,例如代码、写作、数学、图像生成或本地部署。
  2. 选择真正衡量该意图的来源,而不是只依赖一个通用榜单。
  3. 把来源行归一化到可比较的 0 到 100 区间。
  4. 根据任务适配度、时效、测量质量和覆盖度应用权重。
  5. 当模型缺失重要来源时降低置信度。
  6. 发布结果时附上来源链接、限制说明和决策建议。

来源权重表

页面类型主要来源权重规则
代码Arena.ai Code Arena、Vals SWE-bench、Vals Vibe Code、Vellum、Artificial Analysis每个来源约 10% 到 35%
写作创意写作榜单、长文写作基准、通用文本偏好来源每个来源约 10% 到 35%
数学ProofBench、Riemann-bench、AIME 类来源、通用智能来源每个来源约 10% 到 35%
图像生成Text-to-image Arena 和图像质量榜单每个来源约 35% 到 65%
本地模型硬件适配、内存适配、运行时支持、Ollama pulls、Hugging Face downloads按场景评分
API 价格仅使用官方提供商价格页,可比较时再做归一化不纳入转售路由价格

更新频率

  • Ranking、本地模型、API 价格和 AI Radar 快照都设计为通过定时数据任务刷新。
  • 如果来源改版或阻止自动读取,相关行会保留,但置信度会降低,直到再次核对来源。
  • 当解释、来源说明或决策建议需要更清楚时,页面也会进行编辑更新。

更正政策

  • 模型名称、价格、来源链接、发布日期或基准解释错误时,会优先更正。
  • 当两个官方来源冲突时,优先采用日期和计费上下文最清楚的提供商自有页面。
  • 更正应保留证据路径,而不是静默重写排名。

利益冲突政策

广告主、联盟伙伴、提供商或合作方不能控制排名权重、更正决定、来源选择或模型位置。 商业关系必须与编辑排名分开披露。

已知限制

  • 公开榜单无法覆盖每个模型、地区、安全设置、延迟档位或部署方式。
  • 赢得某个基准的模型,仍可能在私有工作流中失败,因为提示词、工具、上下文和策略设置不同。
  • 价格可能比爬虫刷新更快变化,生产采购前仍应核对官方页面。
  • 缺失来源代表不确定性,不代表模型一定弱。

示例计算

假设一个代码模型在三个来源上分别得到 96、91 和 88 分,对应权重为 35%、25% 和 20%。 如果它缺失两个小来源,总权重为 20%,AI Jupyter 不会把缺失行记为 0, 而是把可用质量分与置信度调整结合起来。

可用质量分

92.1

基于可用来源的加权平均。

覆盖置信度

80%

缺失来源会降低确定性。

发布分数

89.4

用于对比,不是实验室断言。