OpenCity大模型预测交通路况，在零样本情况下表现优异，由香港大学和百度共同研发。

编辑日期：2024年09月02日

结合Transformer与图神经网络实现长时间交通状况预测

香港大学携手华南理工大学和百度，推出了一种用于长时间城市交通预测的新模型——OpenCity。该模型不仅具备强大的泛化能力，还能广泛应用于各种交通预测场景。

为了解决传统交通预测模型在泛化性和长期预测上的不足，研究团队开发了这一新的基础模型OpenCity。该模型融合了Transformer架构和图神经网络，以捕捉交通数据中的复杂时空依赖关系。通过对大规模、异质性的交通数据集进行预训练，OpenCity能够学习到丰富的、具有泛化性的特征，并将其应用于广泛的交通预测场景。

相较于传统方法，OpenCity具有以下特点：

跨区域空间泛化能力：现有交通预测模型的主要局限在于其空间泛化能力较弱。不同地理位置的交通模式因基础设施、人口统计等因素存在较大差异，而现有模型通常只能从特定区域的数据中学习，难以有效泛化到其他区域。构建一个能够在部分数据上训练并很好地泛化到未见过区域的模型，是更加可行的方法。这不仅有助于降低部署和维护成本，还有助于创建可在不同城市环境中无缝部署且无需大量重新训练或微调的交通模型。
时间泛化与长期预测：当前的交通预测模型擅长短期预测，如未来一小时内的交通状况。然而，对于长时间预测，这些模型的表现往往不尽如人意。OpenCity通过其先进的架构设计，能够在长时间尺度上提供准确的预测结果。

通过以上改进，OpenCity有望成为城市交通预测领域的重要突破。

然而，这些模型在扩展至更长的时间框架（例如未来几小时或几天）方面的能力明显不足。这种局限性主要源于模型在处理实际城市场景中较长时间范围内的时间分布变化时，泛化能力较弱。

随着预测时间范围的增加，这些模型难以捕捉和考虑影响长期交通状况的动态变化趋势。

这一局限给城市规划者和交通管理部门制定有效的长期战略带来了较大的障碍。

第三个挑战在于如何学习有效的通用表征，并应对时空异质性问题。

学习强大的、具有泛化能力的交通动态表征，对于开发多功能交通模型至关重要。通过学习通用表征，模型可以形成对交通模式的稳固且可迁移的理解，从而能够在多种场景中有效应用，即使缺乏特定领域的训练数据也不例外。

此外，城市交通模式具有内在的多样性，不同空间区域和时间显示出显著的分布变化。解决这种异质性问题，对于确保统一的时空交通模型具备多功能性和适应性至关重要。

左图展示了不同交通数据集中数据分布的变化，突显了需要能够处理这些差异的模型的重要性；右图则比较了OpenCity在零样本条件下的性能与基准模型在全样本条件下的表现。尽管存在时空异质性分布偏移的挑战，OpenCity的表现依然接近全样本基准模型。

OpenCity大模型预测交通路况，在零

为了解决这些挑战，研究团队采取了一系列新的策略。传统方法通常依赖于训练数据的统计特性（如均值和标准差）进行数据归一化。然而，当测试数据表现出显著的数据异质性，并且与训练数据分布没有地理空间上的重叠时，这些统计特征可能变得无效或无法迁移。

为应对这一挑战并适应零样本交通预测任务，作者采用了实例归一化(IN)来处理数据。

这种方法利用每个区域的单个输入实例 \(X_r \in \mathbb{R}^T\) 的均值 \(\mu(X_r)\) 和标准差 \(\sigma(X_r)\)，而不是依赖全局训练集的统计数据，从而有效地缓解了训练数据与测试数据之间分布偏移的问题。其形式化表示如下：

\[ \text{OpenCity大模型预测交通路况，在零} \]

OpenCity旨在解决长期交通预测问题，其中包括处理不断增加的输入时间步数所带来的显著计算和内存开销。

为了解决这些问题，作者采用基于Patch的方法按时间维度对数据进行分割。

定义 \(P\) 为Patch长度，即每个Patch包含的时间步数；\(S\) 为步长大小，决定了连续Patch之间的重叠程度。

经过Patch操作后，输入数据被重塑为 \(X_r^P \in \mathbb{R}^{P \times N}\)，其中 \(N\) 是Patch的数量，计算公式为 \(N = (T - P) / S + 1\)。

通过将一小时的交通数据视为单个Patch的长度，并相应地调整步长（\(S = P\)），使得模型能够捕捉并适应交通数据在长时间范围内的演变模式。

此外，基于Patch的处理显著降低了计算和内存需求，从而实现更高效且可扩展的长期交通预测。

在Patch操作之后，作者使用线性变换和正余弦位置编码 PE 来获得最终的时空嵌入表示 \(E_r \in \mathbb{R}^{P \times d}\)，该表示作为后续组件的输入，具体如下：

\[ \text{OpenCity大模型预测交通路况，在零} \]

为了捕捉交通数据中固有的复杂时空模式，模型整合了时间和空间上下文线索。

通过显式地模拟这两个关键维度之间的相互作用，OpenCity能够更好地理解影响交通模式的各种因素。

这种集成方法使得所提出的框架能够在不同时间范围和地理区域内生成更为准确的预测。

OpenCity模型有效捕捉了交通数据中的独特时间模式，包括由日常或周常活动引起的周期性变化，以及在更长时间尺度上的复杂非线性依赖。具体而言，作者利用一天中的时间特征 \(z^{(d)} \in \mathbb{R}^T\) 和一周中的某天的时间特征 \(z^{(w)} \in \mathbb{R}^T\) 来提取周期性关联，并通过线性层生成编码这些时间上下文线索的时间特定嵌入。

通过显式地模拟交通流的周期性特征，该方法能够在长期预测范围内实现精确预测。

时间上下文编码过程结合了patch操作与时空嵌入表征对齐，形式化表示如下：

OpenCity大模型预测交通路况，在零

由于不同区域的地理特性各异，交通模式也有所不同（例如交通枢纽通常具有较高的流量）。为了捕捉这些区域属性，作者在交通网络中整合了空间上下文。

首先，作者计算了标准化的拉普拉斯矩阵，其中 \(I\) 和 \(D\) 分别是单位矩阵和度数矩阵：

OpenCity大模型预测交通路况，在零

接着进行特征值分解，得到 \(\Delta = U\Lambda U^T\)，其中 \(U\) 和 \(\Lambda\) 分别是特征向量矩阵和特征值矩阵。使用前 \(k\) 个最小的非平凡特征向量作为区域嵌入 \(\Phi \in \mathbb{R}^{R \times k}\)，以此编码交通网络的结构信息。然后通过线性层处理这些嵌入，以获得最终的空间编码 \(C \in \mathbb{R}^{R \times d}\)。

OpenCity模型基于所提出的TimeShift Transformer架构，用于编码时间依赖关系。作者主要从两个互补的角度捕捉交通模式：

利用时间嵌入 \(D\) 和空间嵌入 \(C\) 捕获交通中的周期性模式，旨在揭示历史交通模式与未来实例之间的相关性。

其中，时间嵌入被更新为两个组成部分：

明确地模拟历史和未来导向的时间模式，使模型能够更好地学习和利用交通时间序列的周期性特征。

此过程通过构建时间转移多头注意力机制来实现——将未来的时空嵌入作为查询（Query），历史的时空嵌入作为键（Key），并将历史的时空数据表示作为值（Value）。

OpenCity大模型预测交通路况，在零

作者引入了RMSNorm以提高训练稳定性。

通过明确建模历史与未来时间信息之间的关系，OpenCity具备了发现周期性时空交通模式的能力。

该模块旨在捕捉不同时间段之间的动态依赖关系，例如，突发的交通事故可能导致交通速度和交通量急剧下降。

为了实现这一点，我们采用了一种类似周期交通转换编码的注意力机制。

不同之处在于，查询（Q）、键（K）和值（V）的输入被替换为上一步的归一化输出（M）。

这一修改使模型能够专注于学习不同时间段之间的动态依赖关系，而不仅仅是周期模式。

得到的时间表示H ∈ ℝ^(R×p×d)捕捉了这些动态时空关系。

捕捉空间依赖性是模型设计的关键方面之一，因为交通网络表现出强烈的时空相关性，一个区域的交通状况往往受到邻近区域状态的影响。

为了建模这些空间关联，作者采用了图卷积网络（GCNs）：

OpenCity大模型预测交通路况，在零

残差连接、RMSNorm和SwiGLU激活函数被用于后续运算。

OpenCity大模型预测交通路况，在零

所提出的模型通过堆叠多层此类时空编码网络，捕捉复杂的时空依赖关系，从而能够学习交通网络内的复杂关系。

作者全面测试了OpenCity在零样本情况下的性能，包括跨区域、跨城市和跨类型的三种情形，并将其与基线全样本性能进行了对比。

首先，OpenCity展现了卓越的零样本预测性能。即便未经微调，OpenCity在零样本学习方面也取得了重大突破，超越了大多数基线方法。

这表明该方法在学习大规模交通数据中的复杂时空模式，并从中提取适用于下游任务的通用见解方面具有高度的稳健性和有效性。

OpenCity在多个数据集中始终保持在前两名的位置，即便不是第一，其与第一名的差距也控制在8%（MAE）以内。

这种卓越的零样本预测性能突显了OpenCity在处理多种交通数据集时的通用性和适应性，无需进行广泛的重新训练。

其关键优势在于能够立即应用于新场景，大幅减少了传统监督方法所需的时间和资源，为实际应用带来了巨大便利。

此外，OpenCity还展现出了出色的跨任务泛化能力。

作者在四种不同的交通数据类别中对OpenCity进行了评估：交通流量（CAD3、CAD5）、交通速度（PEMS07M、TrafficSH）、出租车需求（CHI-TAXI）以及自行车轨迹（NYC-BIKE）。

基线分析显示，尽管各种模型在特定数据类型上表现优秀，但没有一个模型能在所有类别中持续提供最佳结果。

相比之下，OpenCity在所有测试类别中始终表现出色，突显了其卓越的稳健性和多功能性。

为了进一步评估OpenCity框架的通用性，作者在测试期间对其跨类别的零样本泛化能力进行了评估（如NYC-BIKE）。

结果显示，OpenCity在多个指标上均保持了优异的表现，进一步验证了其普适性和适应多样数据类型的能力。

此外，OpenCity还具备强大的长期预测能力。

OpenCity架构的一个关键优势是其卓越的时间泛化能力，在长期交通预测任务中优于基线方法。

许多现有模型往往难以在长时间范围内保持准确预测，因为它们容易过度拟合历史模式，未能充分捕捉交通条件的动态变化特征。

OpenCity 能够从多种交通数据源中学习通用的时空表征，这使得它能够生成稳健的预测，即便在交通模式随时间变化和演进的情况下，这些预测依然可靠。

为了进一步验证 OpenCity 的性能，作者进行了监督学习评估。具体而言，在 one-for-all 设置下，OpenCity 与基线模型在一个数据集上进行了端到端的训练和测试对比。结果显示，OpenCity 在监督设置中表现出色，并在大多数评估指标中占据领先地位。

此外，作者发现大多数基线模型在 CAD-X 数据集上的表现不佳，可能是因为它们倾向于过度拟合历史时空模式，导致在长期交通依赖建模方面的泛化能力较差。相比之下，OpenCity 架构通过预训练阶段有效提取了通用的周期性和动态时空表征，解决了因时间和空间分布偏移而导致的预测性能问题。

本节还评估了 OpenCity 在下游任务中的快速适应能力。作者关注了一个之前未见过的交通数据集，并采用了一种“高效微调”的方法，具体设置为：仅更新模型的预测头（即最后一个线性层），最多进行三个训练周期。结果表明，虽然在某些指标上，OpenCity 的零样本表现不如基线模型的全样本表现，但经过高效微调后，其性能显著提升，超越了所有比较的模型。值得注意的是，OpenCity 的训练时间仅为基线模型所需时间的 2% 至 32%。

这种快速适应能力突显了 OpenCity 作为基础交通预测模型的巨大潜力，能够在短时间内迅速适应新的时空数据类别。

作者探讨了OpenCity在数据和参数两个维度上的可扩展性。

具体来说，参数可扩展性分为三个版本：OpenCityMini（2M 参数）、OpenCityBase（5M 参数）和OpenCityPlus（26M 参数）。

为了研究更大数据集带来的好处，作者在OpenCityPlus模型中分别使用了10%、50% 和 100% 的预训练数据量。

为了便于对比，图表中的纵轴表示相对预测误差值。结果表明，随着参数数量和数据规模的增加，OpenCity的零样本泛化性能逐步提高。

这说明OpenCity可以从大规模数据集中提取有价值的信息，并通过参数扩展增强其学习能力。

展示出的可扩展性潜力使得OpenCity有望成为通用交通应用的基础模型。

此外，作者还将OpenCity与其它先进的时空预训练模型进行了比较，包括以强大零样本泛化能力著称的UniST和UrbanGPT。

评估使用的是CHI-TAXI数据集，该数据集在所有模型的预训练阶段均未被包含。

结果显示，OpenCity在这些先进的大规模时空模型中表现出显著的性能优势。

此外，OpenCity和UniST相比UrbanGPT显示出了显著的效率提升。这可能是由于UrbanGPT依赖于基于问答格式的大规模语言模型（LLM），这限制了其处理批量数据的能力。

因此，提出的OpenCity模型在性能和效率上都实现了双赢，彰显了其作为强大交通基准测试的大规模模型的潜力。