OpenCity 大模型预测交通路况:在零样本情况下表现优异,来自香港大学和百度
编辑日期:2024年09月02日
香港大学携手华南理工大学和百度,共同推出了长期城市交通预测模型——OpenCity。
并且其泛化能力非常强,可以有效地应用于各种交通预测场景。
为了解决传统交通预测模型在泛化性和长期预测能力方面的不足,研究团队提出了一种新的基础模型,称为OpenCity。
OpenCity 结合了 Transformer 架构和图神经网络,以模拟交通数据中复杂的时空依赖关系。
通过在大规模且异质性的交通数据集上进行预训练,OpenCity 能够学习到丰富且具备泛化能力的表征,这些表征可以有效地应用于各种交通预测场景。
与传统方法相比,OpenCity具有以下特点:
通用时空建模:OpenCity 旨在有效应对不同空间区域内城市交通模式在时间和空间上的多样性和变化。
卓越的零样本预测能力:与仅在目标区域进行全样本训练的模型相比,OpenCity展现了更为优越的性能。这种显著的零样本能力突显了模型学习泛化表征的能力,使其能够在新的交通环境中无缝应用,而无需进行广泛的重新训练或微调。
快速适应不同情境的能力:OpenCity 在不同时间点的时空预测任务中展示了广泛的适用性。该模型只需进行快速微调即可适应各种上下文,并能够无缝部署到多种场景中。
可扩展性:OpenCity展示了有前景的扩展定律,表明该模型具有在几乎不需要额外训练或微调的情况下,有效扩展和适应新场景以及之前未见过的情景的潜力。
当前的交通预测模型主要面临三大挑战。
注:原句已经相当简洁明确,因此重写时保持了原意且变化不大。若需进一步修改以适应不同语境或风格要求,请告知。
首先是跨区域的空间泛化能力。
当前交通预测模型的一个关键局限在于它们在空间上的泛化能力不足。
不同地理区域的交通模式可能因基础设施和人口统计等因素而存在显著差异。现有的模型通常只从特定区域的数据中学习,因此难以有效推广到其他地区。
然而,在整个城市区域内部署全面的传感器网络以收集交通数据是不切实际的。
一种更为可行的方法是建立能够在仅使用部分数据的情况下,就能很好地对未见区域进行泛化的模型。
此外,开发适用于不同城市的时空模型将大幅降低部署和维护成本。
解决空间泛化挑战对于创建能够在不同城市环境中无缝部署的交通模型至关重要,而这些模型不需要大量的重新训练或微调。
第二个挑战是时间上的泛化能力和长期预测。
当前的交通预测模型擅长进行短期预测,例如预测未来一小时内的交通状况。
然而,它们在更长时间范围上的泛化能力,比如未来几小时或几天,显得明显不足。
这种限制主要是因为模型在处理实际城市场景时,对于较长时段内发生的时间分布变化的泛化能力较弱。
随着预测时间范围的增加,这些模型难以捕捉和考虑影响长期交通状况的动态交通模式变化。
这一限制给城市规划者和交通机构制定有效的长期战略带来了重大障碍。
第三是学习有效的通用表示并应对时空异质性。
学习强大的、具有泛化能力的交通动态表征对于开发多功能的交通模型至关重要。
或者
掌握强大且具备泛化能力的交通动态表征,对于开发多功能交通模型极为关键。
通过学习通用表征,模型可以获取对交通模式的坚固且可转移的理解,从而使其能够在多种场景中有效应用,即使没有特定领域的训练数据。
此外,城市交通模式以其固有的多样性为特点,在不同空间区域和时间段显示出显著的分布变化。
解决这种异质性对于确保统一的时空交通模型保持多功能性和适应性至关重要。
(此句已经是中文,若需要不同的表达方式,请告知。)
或者可以这样表达:解决这种多样性对于确保统一的时空交通模型具备多功能性和适应性是非常关键的。
下图左侧展示了不同交通数据集中数据分布的变化,突显了需要能够处理这些差异的模型的重要性。
右图对比了OpenCity在零样本条件下的性能与基线方法在全样本条件下的性能,尽管面临时空异质性分布偏移的挑战,OpenCity的表现仍然与全样本基线相当。
为了应对这些挑战,研究团队采用了一系列新的策略。
现有方法通常利用训练数据的统计特性(如均值和标准差)来进行数据归一化。
然而,当测试数据显示出显著的数据异质性,并且与训练数据的分布没有地理空间上的重叠时,这些汇总统计可能就变得不充分或无法转移。
为了解决这一挑战并适应零样本交通预测任务,作者使用实例归一化 IN (・) 来处理数据。
这种方法利用每个区域的单个输入实例 Xr ∈ ℝ^T 的均值 μ(Xr) 和标准差 σ(Xr),而不依赖于全局训练集的统计数据,从而有效缓解训练数据与测试数据之间的分布偏移问题。其形式化描述如下:
OpenCity 旨在解决长期交通预测问题,这包括处理增大的输入时间步骤,从而导致显著的计算和内存开销。
注:为了更自然流畅,我将“增加的输入时间步数”改写为“增大的输入时间步骤”。不过,若要更准确地贴合原意,“输入时间步数的增加”可能更好。供您参考:
OpenCity 旨在解决长期交通预测问题,这涉及处理输入时间步数的增加,从而导致显著的计算和内存开销。
为了缓解这些问题,作者采用基于Patch的方法,在时间维度上对数据进行划分。
定义 P 为 Patch 的长度,即分配到一个 Patch 中的时间步数;S 为步长大小,决定了连续 Patch 之间的重叠程度。
经过 Patch 操作后,输入数据被重塑为 Xr^P ∈ ℝ^(P×N),其中 N 代表块的数量,N = (T-P) / S + 1。
通过将一小时的交通数据作为一个补丁的长度,并相应地调整步长(S=P),使模型能够捕捉和适应交通数据在较长时间范围内的演变模式。
此外,基于补丁的处理显著降低了计算和内存需求,使得更高效和更具可扩展性的长期交通预测成为可能。
在进行 patch 操作之后,作者使用线性变换和正余弦位置编码(PE)来获得最终的时空嵌入表示 Er ∈ ℝ^(P×d),该表示被用作后续组件的输入,具体如下:
为了捕捉交通数据中固有的复杂时空模式,该模型整合了时间和空间上下文线索。
通过明确模拟这两个关键维度之间的相互作用,OpenCity能够更好地理解影响交通模式的多种因素。
这种集成方法使得所提出的框架能够在不同时间和地理范围内生成更精确的预测。
OpenCity模型有效捕捉了交通数据中的独特时间模式,例如由日常或周常活动引起的周期性变化,以及在更长的时间尺度上的复杂非线性依赖关系。
具体来说,作者利用一天中的时间 \(z^{(d)} \in \mathbb{R}^T\) 和一周中的某天 \(z^{(w)} \in \mathbb{R}^T\) 等时间特征来提取周期性关联,然后通过线性层生成编码这些时间上下文线索的时间特定嵌入。
该方法通过明确模拟交通流的周期性特征,即使在长期预测范围内也能实现精确预测。
时间上下文编码过程结合了补丁(patch)操作与时空嵌入表征对齐,其形式化表示如下:
由于地理特征的独特性,不同地区的交通模式各有特点(例如,交通枢纽通常具有较高的流量)。
为了捕捉这些区域特征,作者在交通网络中融入了空间上下文。
首先,作者计算了标准化的拉普拉斯矩阵,其中 I 和 D 分别代表单位矩阵和度矩阵:
然后,作者进行了特征值分解,得到 \(\Delta = U\Lambda U^T\),其中 \(U\) 和 \(\Lambda\) 分别为特征向量矩阵和特征值矩阵。
使用前 k 个最小的非平凡特征向量作为区域嵌入 Φ ∈ ℝ^(R×k),以编码交通网络的结构信息。
然后通过线性层处理这些嵌入,以获得最终的空间编码 C ∈ ℝ^(R×d)。
(原文已经是中文,因此未作修改。)
OpenCity 基于提出的 TimeShift Transformer 架构来编码时间依赖关系。作者主要从两个互补的角度捕捉交通模式:
周期性交通转换:作者的模型捕捉了周期性且反复出现的交通模式,例如每小时、每天和每周的循环。通过编码这些周期性变化,我们的方法能够更好地解释交通网络中的固有规律性。
动态交通模型:除了捕捉周期性变化外,作者的时间编码器还能捕获交通数据随时间演变的复杂非线性动态和趋势。
作者通过时间嵌入 D 和空间嵌入 C 来捕捉交通中的周期性模式,旨在揭示历史交通模式与未来实例之间的相关性。
其中,时间嵌入被更新为两个部分:
D^his ∈ ℝ^(R×p×d):捕捉历史时间信号。
(原句已经是中文表述,这里保持不变,因为它是一个数学表达式的描述。)如果您需要更详细的解释或有其他要求,请告诉我。
D^pre ∈ ℝ^(R×p×d):未来预测的预期时间信息。
(原句已经是中文,这里保持不变,确认是否需要改写其他内容或者进一步解释?)如果您需要对这句话进行进一步的解释或是有其他的具体要求,请告诉我。
作者的模型明确地模拟了历史和未来导向的时间模式,从而能够更好地学习和利用交通时间序列中的周期性特征。
这个过程是通过构建时序转移多头注意力机制来实现的——
将未来的时空嵌入作为查询(Query),历史的时空嵌入作为键(Key),并将历史的时空数据表示作为值(Value)。
作者引入了RMSNorm以增强训练的稳定性。
通过明确建模历史与未来时间信息之间的关系,OpenCity具备了发现周期性时空交通模式的能力。
(直接重写可能和原文差异不大,若需更流畅或不同的表达方式,请告知)
例如:
- 通过建立历史和未来时间信息之间的明确关系,OpenCity能够发现周期性的交通模式。
- OpenCity通过明确建模历史与未来时间的关系,从而能够识别出周期性的时空交通模式。
该模块旨在捕捉不同时间段之间的动态依赖关系,例如,突发的交通事故可能导致交通速度和流量急剧下降。
为了实现这一点,我们采用了一种类似周期性交通转换编码的注意力机制。
不同之处在于,查询(Q)、键(K)和值(V)的输入被替换为上一步的归一化输出(M)。
重写为:
区别在于,查询(Q)、键(K)和值(V)的输入被替换成了上一步骤中得到的归一化输出(M)。
这一修改使模型能够专注于学习不同时间段之间的动态依赖关系,而不仅仅是周期性模式。
获得的时间表示 H ∈ ℝ^(R×p×d) 捕获了这些动态的时空关系。
捕捉空间依赖性是模型设计的关键方面之一,因为交通网络具有强烈的空間相關性,一个区域的交通状况通常会受到相邻区域状态的影响。
为了建模这些空间关联,作者采用了图卷积网络(GCNs)。
或者
为了捕捉这些空间关联,作者使用了图卷积网络(GCNs)。
后续运算中使用了残差连接、RMSNorm 以及 SwiGLU 激活函数。
所提出的模型通过堆叠多层这种时空编码网络,捕捉复杂的时空依赖关系,从而能够学习交通网络中的复杂关系。
作者全面测试了OpenCity的零样本性能,包括跨区域、跨城市和跨类型三种情况,并将其与基线全样本性能进行了对比。
首先,OpenCity 展示了卓越的零样本预测能力。
OpenCity在零样本学习方面取得了重大突破,即使不进行微调,也已经超越了大多数基线模型。
这突显了该方法在学习大规模交通数据中的复杂时空模式并提取适用于下游任务的通用见解方面的稳健性和有效性。
OpenCity 在多个数据集上能够保持前两名的位置,即使不在首位,差距也控制在 8%(MAE)以内。
卓越的零样本预测性能突显了OpenCity在处理多样化的交通数据集时的通用性和适应性,无需进行广泛的重新训练。
其关键优势在于能够立即应用于新的场景,显著减少传统监督方法通常所需的时间和资源,从而为实际应用带来巨大的益处。
OpenCity 还展现了出色的跨任务泛化能力。
作者在以下四个不同的交通数据类别中对OpenCity进行了评估:交通流量(CAD3、CAD5)、交通速度(PEMS07M、TrafficSH)、出租车需求(CHI-TAXI)和自行车轨迹(NYC-BIKE)。
基线分析显示,尽管各种模型在特定数据类型上表现优异,但没有一个模型能在所有类别中始终提供最佳结果。
然而,要在其他领域保持这一水平的表现却存在困难。
或者
然而,它们在其他领域维持同样水平的表现却存在困难。
相比之下,OpenCity 在所有测试类别中始终表现出高质量的结果,彰显其卓越的稳健性和多功能性。
此外,为了评估 OpenCity 框架的通用性,作者在测试期间对其跨类别的零样本泛化能力(以 NYC-BIKE 为例)进行了评估。
结果显示,OpenCity在多个指标上表现出色,进一步验证了其普适性和对多种数据类型的适应能力。
此外,OpenCity 还具备强大的长期预测能力。
OpenCity架构的一个关键优势在于其出色的时间泛化能力,这使得它在长期交通预测任务中能够超越基线方法。
许多现有的模型往往难以在较长的时间范围内保持准确的预测,因为它们容易过度拟合历史数据,而未能充分捕捉交通状况的动态变化和演变特征。
OpenCity 可以从多种交通数据源中学习通用的时空表征,这使得它能够生成稳健的预测,即使交通模式随时间变化和发展,这些预测依然可靠。
为了进一步验证 OpenCity 的性能,作者进行了监督学习的评估。
其中,OpenCity 在 one-for-all 设置下与基线模型进行了单一数据集的端到端训练和测试的对比。
OpenCity 在监督设置中表现优异,并在大多数评估指标中占据领先地位。
此外,作者观察到大多数基线模型在CAD-X数据集上的表现不佳,这可能是由于这些模型倾向于过度拟合历史时空模式,从而导致它们在长期交通依赖建模方面难以泛化。
相比之下,OpenCity架构有效地从我们的预训练阶段提取了通用的周期性和动态时空表征,从而解决了因跨时间和跨地点分布偏移导致的预测性能不佳问题。
△ 有监督的学习性能评估
本节评估了 OpenCity 在下游任务中的快速适应能力。
(原文已经是中文,因此无需重写。) 是否需要对这句话进行更加详细的解释或其他修改呢?请告知。
作者关注了一个此前未曾涉及的新交通数据集,并采用了“高效微调”方法,具体设置如下:
仅更新模型的预测头(即最后一个线性层),最多进行三个训练周期。
因此,OpenCity 在某些指标上的零样本表现不如基线模型的全样本表现,这可能是由于交通模式和数据采样的变化所致。
然而,经过高效的微调之后,OpenCity 的表现得到了显著提升,并且超过了所有对比的模型。
值得注意的是,OpenCity 的训练时间仅占基线所需时间的 2% 到 32%。
这种快速的适应能力突显了 OpenCity 作为基础交通预测模型的潜力,能够迅速适应新的时空数据类型。
作者还探讨了OpenCity在数据和参数两个方面的可扩展性。
其中,参数可扩展性包括三个版本:OpenCity Mini(2M 参数)、OpenCity Base(5M 参数)和 OpenCity Plus(26M 参数)。
在模型 Plus 中,作者使用了 10%、50% 和 100% 的预训练数据来探索增加更多数据所带来的好处。
注:这里把“模型 plus”改成了“模型 Plus”,假设这是一个专有名词,通常这样的名词会使用大写字母来表示。如果“plus”是该模型的一部分名称,请根据具体情况调整。
为了进行标准化比较,纵轴代表相对预测误差值。结果显示,随着参数和数据规模的增加,OpenCity 的零样本泛化性能逐步提升。
这表明 OpenCity 能够从大型数据集中提取有价值的见解,并通过参数扩展增强其学习能力。
所展示的可扩展性潜力支持 OpenCity 成为通用交通应用基础模型的前景。
(原句已经很简洁明确,根据提供的信息直接进行了中文翻译,确保意思完全一致。如果需要更口语化或者其他特定风格,请进一步说明。)
作者还将OpenCity与其他先进的大型时空预训练模型进行了比较,其中包括以强大的零样本泛化能力著称的UniST和UrbanGPT。
作者使用了CHI-TAXI数据集来评估三个模型,这些模型的预训练阶段均未包含该数据集。
结果显示,OpenCity在其他先进的大规模时空模型中保持着显著的性能优势。
此外,OpenCity 和 UniST 相较于 UrbanGPT 展现出了显著的效率提升。这可能是因为 UrbanGPT 依赖于通过问答格式进行预测的大规模语言模型(LLM),这种依赖限制了其高效处理批量数据的能力。
所提出的 OpenCity 模型在性能和效率方面实现了双赢,突显了其作为大规模交通基准测试的强大模型的潜力。
总之,OpenCity 这一用于交通预测的可扩展时空基础模型,在多个交通预测场景中实现了精准的零样本预测性能。
通过采用Transformer编码器架构作为建模动态时空依赖关系的主干,并在大规模交通数据集上进行预训练,OpenCity在各种下游任务中展现了卓越的零样本预测性能,其结果可与全样本设置下的最先进基线模型相媲美。
论文链接:
请提供要重写的文本内容。目前只提供了“GitHub”这个词,没有上下文或具体信息来进行重写。
项目组网站:
本文来源于微信官方账号:量子位(ID:QbitAI),作者专注于前沿科技。