时间序列预测：从统计学到深度学习的建模范式演进

时间序列预测——WHAT、WHY、HOW

在许多工科专业的日常实际生产与运维中，大家都早已习惯用历史数据来“回看”系统的运行状态——这些随时间积累的数据，能够在一定程度上帮助我们“提前看见”未来。尤其是在我们课题组所关注的供水行业中，从用水需求的周期性波动，到管网压力与流量随调度策略不断变化的动态响应，再到给水厂设备运行状态与能耗水平的长期演化，几乎所有关键运行信息都以时间序列的形式被持续记录下来。如何从这些看似零散、却反映了工业系统实际状态的数据中提炼出各组件运行的时间规律，并将其转化为对未来运行状态的合理预判，一直以来都是供水产业精细化管理中一个绕不开的核心问题。

在实际工程运行中，人们当然也可以依赖经验和规则来判断未来的变化趋势，但这种方式往往建立在对局部场景的长期熟悉之上，一旦系统规模扩大、运行工况变得更加复杂，仅凭人工经验便很难同时兼顾时间上的长期演化与空间上的多点耦合。

假如说上图是供水系统中的用水量时间序列，如果把多月、甚至多年的监测数据画成一条连续曲线，工程人员凭经验往往能够直观把握一个总体趋势：比如城市规模扩大带来的长期增长，或是某些阶段性政策调整引起的缓慢变化；同时，对工作日与周末、夏季与冬季之间的周期性差异，也会形成较为宏观的认识。这种时间序列中所蕴含的周期性变化规律，不仅长期以来为人工调度提供了重要参考，在许多预测模型中同样是提升预测稳定性和精度的关键先验信息。

[photos]

[/photos]

利用管网水力数据的周期性变化规律，在图信号处理技术相关算法上实现数据修补。参考页面：周啸课题组-水务数据修补在线工具（GDI Web）。图片来源：Zhou, X., Man, Y., Liu, S., Zhang, J., Yuan, R., Wang, W., & Su, K. (2024). Leveraging multi-level correlations for imputing monitoring data in water supply systems using graph signal sampling theory. Water Research X, 25, 100274. https://doi.org/10.1016/j.wroa.2024.100274

但这种基于经验的判断，通常停留在“看个大概”的层面——哪些波动属于稳定的季节性结构，哪些是调度行为引起的短期扰动，哪些又是偶发事件或噪声，很难在脑海中被清晰地区分和量化。这就是人工经验判断所存在的缺陷与不足之处😕😕😕。

相比之下，数据驱动的时间序列模型并不是简单地“延长一条曲线”，而是试图将用水量变化拆解为趋势、周期、季节性和不规则波动等不同成分（上图所示），并在此基础上学习它们各自的变化规律。正是这种对细粒度时间特征的系统性提取与组合，使得数据模型能够在复杂波动中识别稳定模式，在短期扰动中保持对长期演化方向的判断，从而为未来用水需求的预测提供比人工经验更精细、也更可重复的依据。在这样的背景下，借助数据模型进行时间序列预测（Time Series Forecasting， TSF），并不是为了取代工程人员的判断，而是通过对历史数据中潜在规律的系统性学习，将零散的运行经验转化为可量化、可复用、可扩展的预测能力，从而在复杂工况下为运行决策提供更加稳定和前瞻性的参考。

以上内容，回答了：

什么是 TSF 问题
为什么要（使用数据模型）进行 TSF
如何进行 TSF

然而，随着监测点数量的增加、运行工况的复杂化，预测问题早已从单点、短期，逐步演变为多目标、多步尺度的系统性预测。这种转变并非源于研究者对模型复杂性的刻意追求，而是工程实践本身不断“逼迫”预测问题发生升级。

在早期运行条件下，监测点数量有限、调度策略相对固定，单一节点、短时间尺度的预测往往已经足以支撑基本决策。但随着在线监测系统和 SCADA 平台的普及，供水系统逐渐从“少点、低频”的监控模式，发展为“多点、高频、全时段”的连续观测体系，运行决策也不再只关注某一个节点、下一时刻的状态变化，而是需要提前评估多个关键节点在未来一段时间内的协同响应。例如，泵站调度、分区供水、能耗优化和风险预警，往往依赖于对多个用水节点或压力监测点在不同时间尺度上的联合预测。在这种背景下，预测问题自然从单点、单步的局部判断，演变为多目标、多时间尺度的系统性任务，其核心不再是“某一个点下个时刻会发生什么”，而是“整个系统在未来一段时间内将如何演化”。

本文将从最基础的 TSF 概念出发，结合给水工程中的典型应用场景，梳理从单目标、单步到多目标、多步预测方法的本质差异，并进一步讨论不同类型的预测模型各自适合解决哪些问题、又在哪些场景下存在天然局限，帮助读者从供水工程视角系统梳理 TSF 这一问题。

本篇博客仅是个人根据目前所学知识整理的一点总结，专业性表达与描述可能有所欠缺，敬请理解🙏~

正如前面所说，随着工程系统实际需求的增长与技术的进步，时序预测任务的发展路径也有了一个非常清晰的演化脉络：从单目标、单步预测开始，逐渐走向单目标、多步预测，最终演变为多目标、多步的系统级预测问题。不同类型的模型，正是在应对这些任务升级的过程中逐步登场。

单目标单步预测：预测问题的起点

最早、也最容易被理解的 TSF 任务，是单目标、单步预测。它关注的是一个对象在下一时刻会发生什么，例如某一个用水节点下一个时刻的需求，或某一监测点下一时刻的压力值。在这一设定下，预测的对象是单一的，预测的时间跨度也只是未来的一个时刻，模型面对的是一个相对“局部”的问题。

在这一阶段，预测问题隐含着一个非常关键、却常常被忽略的假设：系统的短期未来，主要由其近期历史状态决定。只要能够合理刻画这种短时间尺度上的依赖关系，就可以获得可用的预测结果。正因如此，模型并不需要理解长期演化趋势，也不需要考虑不同对象之间的相互影响。

基于传统统计学的预测模型正是在这样的假设下发展起来的。以 ARIMA 模型为例，它通过自回归项来刻画当前状态对未来的直接影响，通过移动平均项来吸收随机扰动带来的短期波动，本质上是在用一组线性关系描述“过去若干时刻如何共同决定下一时刻”。在供水需求或压力数据相对平稳、周期结构明确的情况下，ARIMA 往往能够给出非常稳定的短期预测结果。这类模型的一个重要特点在于，其参数具有明确的统计含义，工程人员可以直观地理解模型在“关注什么样的历史信息”。关于ARIMA模型的原理详解及代码实现可参考：Forecasting Stock Prices Using ARIMA Model。

随着数据量的增加，传统机器学习模型逐渐被引入到 TSF 中，这一转变并不是因为统计学模型“失效了”，而是因为工程数据本身开始呈现出统计模型难以轻松应对的特征。主要包括以下两点：

一方面，实际运行数据往往并不严格满足平稳性、线性或噪声分布等经典假设（统计学模型实现预测的核心原理）。
另一方面，需求变化、调度行为和外部环境因素的叠加，使得时间序列中逐渐显现出更复杂的非线性响应关系。

在这种背景下，依赖明确数学假设的统计模型虽然依然稳定，但在刻画复杂映射关系时开始显得力不从心。

以支持向量回归（Support Vector Regression, SVR）为代表的传统机器学习方法，正是在这一需求下被引入到 TSF 问题中。这类方法通常并不直接“理解时间”，而是通过构造滞后特征，将时间序列问题转化为一个标准的回归任务。模型关注的，是历史若干时刻的观测值如何共同决定下一时刻的输出，其优势在于不需要对数据的生成机制做过多先验假设，而是通过数据本身来学习输入与输出之间的函数关系。这使得机器学习模型在面对一定程度的非线性、噪声干扰或异常波动时，往往比线性统计学模型表现得更加灵活。

关于 SVR 模型的参数定义、详细使用请参考 Python 机器学习经典工具包 scikit-learn 中的讲解：https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html。

图片来源：Rodríguez-Pérez, R., Bajorath, J. Evolution of Support Vector Machine and Regression Modeling in Chemoinformatics and Drug Discovery. J Comput Aided Mol Des 36, 355–362 (2022). https://doi.org/10.1007/s10822-022-00442-9

正因如此，在单目标、单步预测场景下，机器学习方法常常成为统计模型的自然补充：当序列结构相对简单、规律清晰时，统计模型依然高效可靠；而当系统响应开始偏离线性假设、但样本规模又不足以支撑复杂深度模型时，SVR、随机森林等方法往往能够在不显著增加建模复杂度的前提下，提供更具鲁棒性的预测结果。

无论是基于统计学还是机器学习的模型，它们在这一阶段表现良好，并非因为模型本身多么先进，而是因为预测任务的设定本身足够“克制”。模型只需要回答一个问题：在当前状态附近，系统会向哪个方向轻微移动一步。这也是为什么，这类方法在工程实践中长期被用于运行监测、短期调度参考以及异常状态的初步判断。

但这种任务设定同时也是“保守的”。它默认预测只服务于即时判断，而不是前瞻性决策；默认系统的变化是缓慢且局部的，而不是跨时间尺度累积的。一旦工程需求开始关心“未来一段时间内会发生什么”，单目标单步预测所依赖的这些假设，便会逐渐失效，预测问题也随之进入下一个阶段。

单目标多步预测：问题开始真正变难

当预测需求从“下一步”扩展为“未来一段时间”，预测问题本身就已经发生了质的变化。这种变化更多是因为工程实践中决策方式的转变。运行调度、能耗优化、风险预警等任务，很少只依赖“下一时刻”的判断，而更关心系统在未来数小时、数天甚至更长时间内的整体走势。工程人员需要提前知道的不只是“会不会变化”，而是变化会持续多久、幅度有多大、是否存在拐点。

正是在这样的需求推动下，多步预测任务逐渐成为主流。然而，对于基于传统统计学和机器学习理论的预测模型而言，多步预测并不是一种原生能力。它们在设计之初，解决的都是“由当前状态预测下一状态”的问题，一旦预测目标被拉长，就不得不借助额外的策略来实现。

单步预测模型的“逞强”

最常见的做法是递推式（Recursive）预测，也被称为滚动预测。模型先预测下一时刻的值，再将该预测结果作为新的输入，继续向前推演。这种方式在工程上实现简单，几乎不需要额外建模成本，因此被广泛采用。但它隐含着一个不可回避的问题：模型并不知道自己在“滚动”。每一次预测误差，都会被当作真实输入传递到下一步，误差在时间轴上不断放大，最终使远期预测迅速偏离合理区间。这种不稳定性，并非调参问题，而是预测范式本身的局限。

另一种是直接式（Direct）预测，即直接预测未来多个时间点，让模型一次性输出一个时间窗口内的预测结果。从形式上看，这种方式避免了误差逐步累积的问题，但代价同样明显。统计学模型通常需要为不同预测步长单独建模，机器学习模型则需要显著增加输出维度和训练样本规模。在工程实践中，这意味着更高的建模复杂度、更繁琐的维护成本，以及对数据规模和质量的更高要求。因此，这类方法虽然在理论上可行，但很难成为大规模应用中的常规选择。

图片来源：Wan, X., Farmani, R., & Keedwell, E. (2023). Gradual Leak Detection in Water Distribution Networks Based on Multistep Forecasting Strategy. Journal of Water Resources Planning and Management, 149(8), 04023035. https://doi.org/doi:10.1061/JWRMD5.WRENG-6001

循环神经网络的出现

基于传统统计学、机器学习预测模型在多步预测上存在的问题，大家开始对 MIMO（Multi-Input Multi-Output）架构模型进行探究。正是在这一阶段，深度学习时序模型开始显示出结构性的优势。循环神经网络（Recurrent Neural Network，RNN）、LSTM（Long Short-Term Memory）以及后来的 Transformer，并不是简单地“换了一种回归器”，而是在模型结构中显式引入了对时间演化过程的刻画能力。它们不再只关注“下一步”，而是直接学习从一段历史序列到一段未来序列的映射关系，使多步输出成为模型的一部分，而不是事后拼接的策略。这种端到端的建模方式，使模型在面对中长期预测时更加稳定，也更容易捕捉跨时间尺度的变化模式。

方法	原理（Prediction Principle）	基本思想（Core Idea）	优点（Advantages）	缺点（Disadvantages）
Recursive （递归预测）	基于单步预测模型，通过将前一步的预测结果作为下一步输入，逐步向前滚动预测未来多个时间步	“一步模型，多次使用”：不断用预测值替代真实值，完成多步预测	只需训练一个模型；实现简单、计算成本低；易于快速部署	误差累积严重，预测步长越远误差越大；长期预测不稳定，趋势易漂移；不适合长预测窗口；对缓慢变化（如管道的渐进泄漏）不敏感
Direct （直接预测）	为每一个预测步长分别训练一个模型，每个模型仅依赖历史真实数据	“一步长对应一个模型”：各预测步相互独立	不存在误差累积问题；单步预测稳定性较好	模型数量随预测步长线性增长；训练和维护成本极高；忽略预测步之间的时间相关性；工程上难以落地（长预测窗口时几乎不可用）
MIMO （多输入多输出）	使用一个模型，同时预测整个未来时间窗口，直接学习输入历史序列与输出序列之间的映射关系	“一次输入，一次输出整个未来序列”：整体建模时间结构	无误差累积；显式建模预测步之间的相关性；只需一个模型，工程可行性高；预测结果在整体形状上更稳定	模型结构复杂、输出维度高；对模型容量和训练数据要求较高；设计不当可能出现过拟合

以 RNN 架构为例，其之所以能够自然地承担多步预测任务，与其序列建模方式直接相关。如下图所示，RNN 并不是把时间序列视为一组彼此独立的样本，而是通过隐藏状态在时间维度上持续传递历史信息。在最常见的 many-to-one 结构中，模型利用一段历史序列来预测下一时刻的状态；而在 many-to-many 结构下，模型则可以在一次前向计算中同时输出未来多个时间步的结果，使多步预测成为模型结构的一部分，而非外部递推策略。进一步地，基于编码器–解码器的 seq2seq 架构，RNN 可以先整体“理解”历史序列，再连续生成未来序列，这正好对应工程中常见的“给定一段历史，预测未来一段时间”的需求。也正因为这种从单步到多步、从点预测到序列预测的结构连续性，RNN 系列模型成为单目标多步预测阶段最具代表性的时序建模方法。关于 RNN 的更多学习教程请参考：

图片来源：Xiao, C., Sun, J. (2021). Recurrent Neural Networks (RNN). In: Introduction to Deep Learning for Healthcare. Springer, Cham. https://doi.org/10.1007/978-3-030-82184-5_7

关于RNN架构的更多详细讲解请参考斯坦福大学公开线上课程：Recurrent Neural Networks cheatsheet。

在 RNN 被广泛应用之后，其局限性也逐渐在工程实践中显现出来。最突出的问题在于，当预测步长拉长或历史序列较长时，模型对早期信息的记忆会迅速衰减，难以稳定捕捉跨时间尺度的依赖关系。这种“记不住很久以前发生了什么”的问题，使得普通 RNN 在中长期预测中往往表现不稳定。正是在这一背景下，LSTM 和 GRU 等改进型循环神经网络结构相继被提出。

LSTM 的核心思想，并不是引入更复杂的非线性映射，而是通过结构设计让模型学会什么时候应该记住信息，什么时候可以主动遗忘。通过显式区分长期状态与短期状态，LSTM 在很大程度上缓解了传统 RNN 难以建模长期依赖的问题，使模型在面对跨度更长、结构更复杂的时间序列时，依然能够保持稳定的预测能力。这也是 LSTM 在中长期单目标预测任务中长期占据主流地位的重要原因。

GRU 则是在这一思路上的进一步简化。它保留了“控制信息流动”的核心思想，但通过更紧凑的结构减少模型参数和训练复杂度。在工程应用中，GRU 往往在性能与效率之间取得较好的平衡，尤其适合样本规模有限、但仍需要一定长期记忆能力的预测场景。可以将其理解为：在不显著牺牲预测效果的前提下，对 LSTM 的工程友好版本。

关于 LSTM 和 GRU 的模型框架不在这里详细赘述，附以下学习参考：

Transformer

随着预测序列不断拉长，循环神经网络在工程应用中的另一类局限逐渐显现出来：无论是普通 RNN 还是改进后的 LSTM、GRU，其核心计算过程仍然依赖时间顺序展开。模型必须一步一步地沿时间轴传递状态，这不仅在训练和推理阶段带来了明显的效率瓶颈，也使得模型在面对极长历史序列时，很难灵活地“回头关注”那些真正关键的时间片段。换言之，循环结构本身决定了模型对时间依赖的建模方式是被动且线性的。

Transformer 的提出，正是对这一结构性限制的直接回应。2017 年，来自 Google Brain 和 Google Research 的 Vaswani 等人在论文 “Attention Is All You Need” 中首次系统性地提出 Transformer 架构，其初衷并非为解决 TSF 问题，而是为了解决机器翻译等序列到序列任务中长期依赖难以建模、训练效率受限的问题。该工作的一个核心判断是：序列建模未必必须依赖递归结构，关键在于如何高效建模序列内部的依赖关系。

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.

在这一思想的指导下，Transformer 完全放弃了循环计算，通过自注意力机制让模型在任意时刻都可以直接访问整个输入序列。模型不再“顺着时间走”，而是能够在全局范围内主动评估：历史中哪些时间点与当前预测最相关。这种机制不仅显著提升了长序列建模的效率，也在结构上改变了模型理解时间关系的方式——时间不再是一步步传递的状态，而是可以被整体感知和选择的信息集合。

课题组文章——多头注意力机制在水量预测问题中的应用：Yuan, R., Man, Y. C., Lu, L. Y., Xu, H., Liu, H. L., Ma, H., Wang, W., Su, K. Z., & Zhou, X. (2024). Industrial water withdrawal prediction using multi-head attention encoder model. Aqua-Water Infrastructure Ecosystems and Society, 73(9), 1868-1883. https://doi.org/10.2166/aqua.2024.181

正是由于这种特性，Transformer 及其核心注意力机制很快被引入到 TSF 领域，尤其是在中长期预测任务中显示出明显优势。对于预测跨度较长、周期结构复杂、且需要综合利用远期历史信息的场景，Transformer 提供了一种不同于 RNN 的建模思路：不是努力“记住”所有历史，而是学会在需要时“找到”最重要的历史。这也为后续多变量预测、多目标建模以及更复杂的时序结构扩展，提供了更加灵活的基础。

至于 Transformer 的影响力有多大，看看有多少被玩儿坏了的 “Attention Is All You Need” 论文标题就知道了🤣🤣🤣~

从单目标多步预测这一问题的演化过程可以看到，LSTM、GRU 以及 Transformer 并不是对 RNN 的简单替代，而是在预测步长不断拉长、时间依赖不断加深的工程需求推动下，对“如何更好地建模时间结构”这一核心问题的逐步回应。

需要强调的是，在这一阶段，预测对象仍然是单一目标。无论是统计模型、机器学习模型，还是深度时序模型，它们解决的始终是同一个问题：一个对象在时间维度上的演化规律。模型能力的提升，主要体现在对时间结构理解的加深，而不是对多个对象之间关系的建模。

也正因为如此，当工程需求进一步从“预测一个对象的未来”转向“预测系统内多个对象的协同行为”时，哪怕是已经成熟的多步深度模型，也会再次遇到新的瓶颈，预测问题随之进入下一个阶段。

多目标多步预测：系统层面的时空协同预测

问题的出现

随着系统级调度需求的出现，预测任务不可避免地进入第三阶段：多目标、多步预测。此时，预测问题的关注点已经不再是“某一条时间序列是否预测准确”，而是多个对象在未来一段时间内将如何协同演化。换言之，预测对象本身发生了变化——从单一序列，升级为由多个相互关联节点构成的系统。

这种转变并非技术驱动，而是工程实践的直接结果。以给水工程为例，运行与调度决策往往同时作用于多个节点：泵站启停会影响一片区域的压力分布，分区供水策略会改变多个用水节点的需求响应，局部异常也可能通过管网结构逐步传导。如果只对某一个节点进行预测，即便该预测在数值上非常准确，也很难回答工程人员真正关心的问题：系统整体是否处于安全、经济、可控的运行状态。因此，多目标协同预测并不是单目标预测任务的简单复制粘贴，而是系统级决策的必然前提。

已有方法的局限性

在这一阶段，最直接、也最容易想到的做法，是将多个目标的时间序列拼接在一起，继续使用已有的 RNN 或 Transformer 模型进行训练。从形式上看，这似乎实现了“多目标预测”，但在实践中往往会迅速遇到瓶颈。一方面，不同目标的行为模式和统计特性并不完全一致，简单参数共享容易使模型退化为对“平均行为”的拟合；另一方面，模型并不知道不同序列对应的是不同物理对象，预测过程中缺乏对目标身份和角色差异的明确认知，导致在目标异质性较强时性能不稳定。

为了缓解这一问题，一部分研究开始在传统时序模型中引入空间或结构信息。例如，在 RNN 或 Transformer 的基础上叠加空间注意力、图卷积或邻域聚合模块，使模型在时间建模的同时，能够感知不同节点之间的相互影响。这类方法在一定程度上拓展了时序模型的能力边界，使其不再局限于“时间维度”的建模，而开始尝试处理时空联合预测问题。然而，在这类模型中，时间建模与空间建模往往是后期叠加的，目标之间的关系更多作为辅助信息存在，其结构表达仍然相对有限。

参考论文：Multi-Target Water Demand Forecasting with Graph Neural Networks: A Comparative Study 中的 Introduction 部分

Temporal Fusion Transformer：通过静态特征区分多目标预测对象

正是在这样的背景下，更具“结构意识”的模型开始出现。其中一类代表是以 Temporal Fusion Transformer（TFT）为代表的目标感知型模型。这类方法通过引入目标的静态属性或身份嵌入，使模型在预测过程中能够明确区分不同预测对象，从而在共享整体结构的同时保留目标间的差异性。TFT 并不显式建模目标之间的物理或拓扑关系，但它有效解决了“多目标被当作同质样本处理”的问题，使多目标多步预测在工程上变得更加可控。

下图是一个非常直观的示意图，总结了多目标多步预测任务中常见的数据形态，即预测目标往往同时受到三类信息的影响：

与时间无关，每个单目标的静态属性（例如设备编号、区域位置、节点类型）；
只能在历史中观测到的时间序列变量；
在预测时就已知的未来信息（例如节假日、工作日标记、计划工况）。

图片来源：Lim, B., Arık, S. Ö., Loeff, N., & Pfister, T. (2021). Temporal Fusion Transformers for interpretable multi-horizon time series forecasting. International Journal of Forecasting, 37(4), 1748-1764. https://doi.org/https://doi.org/10.1016/j.ijforecast.2021.03.012

这些信息并非简单拼接即可使用，而且不同变量在不同时间尺度上的作用方式往往完全不同。传统的时序模型，无论是 RNN 还是 Transformer，通常默认所有输入变量在时间结构上是“同质的”。最常见的做法，是在每一个时间步将所有特征直接拼接，然后交由模型自行学习其重要性。但在多目标、多步预测场景下，这种做法很容易带来两个问题：

模型难以区分哪些变量在当前预测中真正重要；
不同预测对象之间的差异会被隐式地平均掉，导致系统级预测不稳定。

TFT 的核心思想，正是将这种“输入异质性”显式写入模型结构之中。从下图中可以看到，TFT 并不是一个单一的 Transformer，而是由多个功能明确的模块逐层构成。模型首先对静态变量、历史观测变量和已知未来变量分别进行处理，并通过变量选择网络在每一个时间步动态判断“哪些输入值得被关注”。这一步并不是为了提升模型复杂度，而是为了避免模型在大量无关或弱相关变量中浪费学习能力。

图片来源：Lim, B., Arık, S. Ö., Loeff, N., & Pfister, T. (2021). Temporal Fusion Transformers for interpretable multi-horizon time series forecasting. International Journal of Forecasting, 37(4), 1748-1764. https://doi.org/https://doi.org/10.1016/j.ijforecast.2021.03.012

在时间建模层面，TFT 并没有完全抛弃循环结构。相反，它通过一个轻量级的序列到序列模块（通常采用 LSTM）对时间序列进行局部建模，用于捕捉短期连续变化和局部模式；随后，再通过自注意力机制整合长时间跨度内的信息。这种“局部递归 + 全局注意力”的组合，使模型既能稳定学习短期动态，又能在多步预测中灵活关注关键历史时刻，而不必在两者之间做取舍。

更重要的是，TFT 在结构上明确区分了“目标是谁”和“时间如何变化”这两个问题。静态变量不再只是被拼接进时间序列，而是通过专门的编码器作为上下文信息参与后续所有时间建模过程。这使得模型在共享整体结构的同时，仍然能够对不同预测对象形成差异化的内部表示。这一点对于多目标预测尤为关键，因为它避免了模型将所有目标视为完全同质样本的问题。

从工程角度来看，TFT 并不是为了构建一个更深、更复杂的网络，而是试图回答一个非常现实的问题：在多目标、多步预测中，模型如何同时理解“这是哪个对象”“现在处在什么时间”“哪些信息是未来已知的”。图 1 所展示的数据异质性，正是图 2 中这些模块存在的根本理由。

也正因为这种以问题结构为导向的设计，TFT 往往在多目标多步预测任务中表现出较好的稳定性和可解释性，尤其适合那些目标之间关联较弱、但每个目标自身拥有丰富属性信息的应用场景。

需要注意的是：TFT 基于 Transformer 架构，本质上仍然是在做“单条时间序列的预测”，但它不像传统模型那样假设所有序列都一样，而是通过静态特征告诉模型“这是谁的数据”。模型在时间建模时始终带着这个身份信息，从而在共享参数的前提下实现更具个体差异的预测。更加直白地说就是，TFT 不是一个多目标联合预测模型，而是一个具备目标感知能力的单序列预测模型。

时空图神经网络：将多目标预测对象显式建模为一个系统

在多目标预测问题中，有必要先明确一个关键问题：多目标预测中的“多个目标”，是否真的彼此独立？

在许多工程系统中，答案往往是否定的。无论是给水管网中的节点与管段、交通系统中的路段与路口，还是能源系统中的设备与区域，这些预测对象之间通常通过物理连接、功能协作或运行机理形成了稳定的关联结构。

图结构正是一种对这种关联关系的自然抽象方式——将每一个预测对象表示为节点，将对象之间的相互影响表示为边，从而把“多个时间序列并行存在”的问题，转化为“一个由相互作用节点组成的系统如何随时间演化”的问题。也正是在这一建模视角下， TSF 不再只发生在单条序列内部，而是开始同时受到空间结构约束，这为后续的时空联合建模奠定了基础。

与 TFT 的核心假设不同，时空图神经网络（Spatial-Temporal Graph Neural Network, STGNN）并不将多目标预测理解为“多条带身份信息的时间序列”，而是从建模起点就将预测问题视为一个由多个相互关联对象构成的动态系统。这一区别，决定了 STGNN 在结构设计和能力边界上的根本不同。

在 STGNN 中，每一个预测目标被明确建模为图中的一个节点，节点之间的物理、功能或统计关联关系被表示为边。时间维度上的演化与空间维度上的信息传播在模型中同步进行，预测的对象也不再是某几个孤立的数值序列，而是系统整体状态随时间的联合变化。与 TFT “以单序列为中心、通过静态特征区分对象”的思路相比，STGNN 更强调目标之间的相互作用本身就是预测问题的重要组成部分。

参考综述：Jin, M., Koh, H. Y., Wen, Q., Zambon, D., Alippi, C., Webb, G. I., King, I., & Pan, S. (2024). A Survey on Graph Neural Networks for Time Series: Forecasting, Classification, Imputation, and Anomaly Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1-20. https://doi.org/10.1109/TPAMI.2024.3443141

从建模架构上看，典型的 STGNN 通常由两类模块交替构成：一类负责刻画节点自身的时间演化规律（时间维度特征学习），另一类负责在图结构上进行信息传播（空间维度特征学习）。时间建模可以采用 RNN、TCN 或 Transformer 等结构，而空间建模则通过图卷积、图注意力或消息传递机制实现。二者并不是简单叠加，而是在模型内部形成时空耦合，使节点状态的更新同时受到历史信息和邻域节点状态的影响。

正因为这种显式的系统建模方式，STGNN 在多目标多步预测任务中展现出与 TFT 明显不同的优势。信息不再被限制在单条时间序列内部，而是可以沿着图结构在节点之间传播，从而使模型具备一定的“协同推断”能力。

根据图结构的构建方式不同，STGNN 通常可以分为两类。第一类是预定义图结构的 STGNN（Predefined STGNN），即在建模前根据物理连接关系、功能分区或工程经验构建邻接矩阵，例如给水管网中的拓扑结构。这类方法具有明确的工程含义，结构可解释性强，适合物理关系清晰、系统结构稳定的应用场景。第二类是自学习图结构的 STGNN（Self-learning STGNN），模型通过数据驱动方式自动学习节点之间的关联强度，用以刻画隐含的统计依赖关系。这类方法在缺乏明确物理连接、或系统关联随工况变化较大的场景中更具灵活性。这里列举两个分类下的一些代表模型：

Predefined STGNN：

Model	Paper	Adjacency Matrix	Idea
STGCN	Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting	基于距离加权的交通网络图	使用图卷积网络捕捉空间依赖，门控时序卷积捕捉时间依赖。
DCRNN	Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting	加权有向的交通网络图	是将交通流建模为图上的扩散过程，并通过扩散卷积与循环神经网络结合，同时建模时空依赖。
GMAN	GMAN: A Graph Multi-Attention Network for Traffic Prediction	加权有向图（图结构是做为先验知识的来源，用于初始化或引导注意力机制）	通过多重注意力机制（空间、时间、转换注意力）动态建模复杂的时空依赖，并使用编码器-解码器架构进行多步预测，特别强调缓解长期预测中的误差传播问题。

Self-learning STGNN：

Model	Paper	Idea
Graph WaveNet	Graph WaveNet for Deep Spatial-Temporal Graph Modeling	通过自适应邻接矩阵学习隐藏的空间依赖，并结合空洞因果卷积捕获长期时序依赖，形成一个完全卷积的时空图建模框架。
MTGNN	Connecting the Dots: Multivariate Time Series Forecasting with Graph Neural Networks	基于可学习的节点嵌入自适应构建图结构，在无需预定义拓扑的情况下自动挖掘多目标之间的潜在依赖关系。
StemGNN	Spectral Temporal Graph Neural Network for Multivariate Time-series Forecasting	通过将多变量时间序列映射到频域空间，在频域中自学习节点间的相关结构，从而捕获长期时序依赖关系。
MTGODE	Multivariate Time Series Forecasting with Dynamic Graph Neural ODEs	将时空预测问题建模为连续时间的图动力系统，利用神经常微分方程刻画节点状态在图结构上的连续演化过程。
TGGC	Towards Expressive Spectral-Temporal Graph Neural Networks for Time Series Forecasting	通过门控机制动态调节图卷积中的信息传播强度，以抑制无关或噪声邻接关系并提升模型在复杂工况下的鲁棒性。

在实际工程应用中，STGNN 的独特优势主要体现在两个方面。首先，当某个监测点的时间序列出现缺失或中断时，模型仍可以通过邻域节点的信息进行合理推断，预测结果不再完全依赖单点数据的完整性。这一点在传感器故障或通信异常频发的运行环境中尤为重要。其次，在面对异构监测频率的情况下，高频节点的动态信息可以通过图结构传播到低频节点，从而缓解因采样频率不一致带来的信息不对称问题，使系统级预测更加稳定。推荐几篇 STGNN 在相关专业的具体工程应用场景：

Zanfei, A., Brentan, B. M., Menapace, A., Righetti, M., & Herrera, M. (2022). Graph Convolutional Recurrent Neural Networks for Water Demand Forecasting. Water Resources Research, 58(7), 14, Article e2022WR032299. https://doi.org/10.1029/2022wr032299
Wu, Y. P., Wang, X. T., Liu, S. M., Yu, X. P., & Wu, X. (2023). A weighting strategy to improve water demand forecasting performance based on spatial correlation between multiple sensors. Sustainable Cities and Society, 93, Article 104545. https://doi.org/10.1016/j.scs.2023.104545
Nan, Y., Tao, L., Yang, D., Zou, H., He, Y., Cui, Z., & Luo, Y. (2025). A hybrid model for streamflow prediction addressing spatial connectivity and non-stationary dynamics with adaptive graph learning and multiscale decomposition. EGUsphere, 2025, 1-32. https://doi.org/10.5194/egusphere-2025-4171
Xu, A., Zhang, T., Zhang, X., Shao, Y., Yu, T., Chu, S., & Qian, L. (2026). Multi-scale Spatio-temporal graph neural network for enhanced water demand forecasting. Water Research, 288, 124711. https://doi.org/https://doi.org/10.1016/j.watres.2025.124711
Zheng, Y., Zhang, Q., Zhang, X., Zhou, Y., Zhang, Y., & Zhang, T. (2025). A spatial-temporal trend-aware neural network model for accurate water quality prediction in river. Water Research, 287, 124389. https://doi.org/https://doi.org/10.1016/j.watres.2025.124389
Multi-Target Water Demand Forecasting with Graph Neural Networks: A Comparative Study

需要强调的是，STGNN 并非适用于所有多目标预测问题。其前提条件是目标之间确实存在有意义的结构关联。如果系统本身关联松散、节点行为高度独立，那么强行引入图结构，反而可能引入噪声并降低预测性能。正因如此，STGNN 并不是 TFT 的“升级版”，而是面向另一类问题的解决方案。

从更高层次来看，无论是 TFT 还是 STGNN，它们的出现都不是为了追求模型结构的复杂化，而是因为预测任务本身已经从“序列级问题”演变为“系统级问题”。当预测对象升级为系统，模型也必须具备对“对象是谁”“对象如何相互作用”的认知能力。模型结构的演进，本质上只是对这一现实复杂性的被动响应。

回到本质：模型选择，其实是任务选择的结果

如果从任务本身回看，会发现模型之间的差异并不在于“谁更高级”，而在于它们各自试图解决的是什么问题。从传统统计学模型到 TFT 与 STGNN，并非构成一条简单的技术升级链条，而是分别对应着不同复杂度、不同决策需求下的预测任务。当预测目标是单一节点、预测步长较短时，结构简单、稳定可靠的方法往往已经足够；当关注对象扩展为多个节点、多个时间尺度时，模型才不得不引入更复杂的时间与空间建模能力。

也正因为如此，工程实践中并不存在一个能够“解决所有预测问题”的通用模型。模型复杂度的提升，必然伴随着算法实现难度、计算成本和部署门槛的上升。如果为了获得千分位级别的精度提升，需要付出数量级增长的算力消耗和系统复杂度，那么这种提升是否真正具有工程价值，本身就值得审慎权衡。在许多实际应用场景中，经济、稳定、可维护、可解释的预测结果，往往比极限精度更重要。

更重要的是，预测问题本身就天然包含不确定性。无论模型结构多么复杂，训练数据多么丰富，预测的对象始终是一个受外部环境、随机扰动和人为决策共同影响的动态系统。如果仅仅依靠算法复杂度的堆叠，就能够无限逼近“完美预测”，那么现实世界中的不确定性早已被消除——正如金融市场从未因为更复杂的模型而变得可完全预测，否则巴菲特也许早已成为一位深度学习专家。预测精度或许可以不断提高，但它几乎不可能无限逼近一个理想化的极限值，更不可能等于它。

因此，预测模型的选择，本质上是一个问题建模与工程取舍的过程，而不是单纯的算法竞赛。真正成熟的工程应用，并不追求“用最复杂的模型解决所有问题”，而是清楚地知道：在什么样的预测任务下，什么样的模型已经足够。这种对模型能力边界的清醒认识，往往比单纯追求预测精度，更能体现工程实践的理性与成熟。

当前页面是本站的「Baidu MIP」版。发表评论请点击：完整版 »