方法论

AI Jupyter 如何把嘈杂的 AI 信号整理成实用排名

AI Jupyter 将公开基准、官方价格、本地硬件限制和编辑审查结合起来，形成适合开发者继续测试的对比页面。

评分公式

质量分乘以来源置信度，再对缺失来源做小幅不确定性调整。

更新频率

核心数据由定时任务检查，高价值页面会显示刷新日期。

编辑原则

排名是实用候选清单，不是保证、广告位或合规认证。

评分公式

排名先把来源分数归一化到 0 到 100，再按不同页面的任务权重加权，最后根据覆盖度调整置信度。

adjusted score = weighted quality score x confidence blend - missing-source uncertainty

页面类型	主要来源	权重规则
代码	Arena.ai Code Arena、Vals SWE-bench、Vals Vibe Code、Vellum、Artificial Analysis	每个来源约 10% 到 35%
写作	创意写作榜单、长文写作基准、通用文本偏好来源	每个来源约 10% 到 35%
数学	ProofBench、Riemann-bench、AIME 类来源、通用智能来源	每个来源约 10% 到 35%
图像生成	Text-to-image Arena 和图像质量榜单	每个来源约 35% 到 65%
本地模型	硬件适配、内存适配、运行时支持、Ollama pulls、Hugging Face downloads	按场景评分
API 价格	仅使用官方提供商价格页，可比较时再做归一化	不纳入转售路由价格

广告主、联盟伙伴、提供商或合作方不能控制排名权重、更正决定、来源选择或模型位置。商业关系必须与编辑排名分开披露。

假设一个代码模型在三个来源上分别得到 96、91 和 88 分，对应权重为 35%、25% 和 20%。如果它缺失两个小来源，总权重为 20%，AI Jupyter 不会把缺失行记为 0，而是把可用质量分与置信度调整结合起来。

可用质量分

92.1

基于可用来源的加权平均。

覆盖置信度

80%

缺失来源会降低确定性。

发布分数

89.4

用于对比，不是实验室断言。