8 个月前

摘要

许多实际应用需要预测长序列时间序列，例如电力消费规划。长序列时间序列预测（LSTF）要求模型具有较高的预测能力，即能够高效地捕捉输出与输入之间的精确长距离依赖关系。最近的研究表明，Transformer 在提高预测能力方面展现出巨大潜力。然而，Transformer 存在几个严重的问题，阻碍了其直接应用于 LSTF，包括二次时间复杂度、高内存使用量以及编码器-解码器架构的固有限制。为了解决这些问题，我们设计了一种高效的基于 Transformer 的 LSTF 模型，命名为 Informer，该模型具有三个显著特点：(i) 一种 $ProbSparse$ 自注意力机制，该机制在时间复杂度和内存使用上达到 $O(L \log L)$ 的水平，并且在序列依赖对齐方面的性能相当；(ii) 自注意力蒸馏通过减半级联层输入来突出主要注意力，并能高效处理极长的输入序列；(iii) 生成式解码器虽然概念简单，但能够在一次前向操作中预测长时间序列，而不是逐步进行预测，从而大幅提高了长序列预测的推理速度。大量实验在四个大规模数据集上的结果表明，Informer 显著优于现有方法，并为 LSTF 问题提供了新的解决方案。