HyperAI超神经

一切都是相互关联的:考试记忆、注意力偏差、记忆力和在线优化之旅

Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni
发布日期: 4/22/2025
摘要

设计高效的架构主干一直是提升基础模型能力研究的核心。受人类认知现象“注意力偏差”(即优先考虑特定事件或刺激的自然倾向)的启发,我们重新定义了神经架构,包括 Transformers、Titans 和现代线性循环神经网络,将其定义为联想记忆模块,利用一个内部目标(称为注意力偏差)来学习键和值的映射。令人惊讶的是,我们观察到大多数现有的序列模型都利用 (1) 点积相似度或 (2) L2 回归目标作为注意力偏差。除了这些目标之外,我们提出了一组替代的注意力偏差配置及其有效近似值,以稳定它们的训练过程。然后,我们将现代深度学习架构中的遗忘机制重新诠释为一种保留正则化形式,为序列模型提供了一组新颖的遗忘门。基于这些洞见,我们提出了 Miras,这是一个通用的深度学习架构设计框架,它基于以下四种选择:(i) 联想记忆架构,(ii) 注意力偏差目标,(iii) 保留门控,以及 (iv) 记忆学习算法。我们提出了三种新颖的序列模型——Moneta、Yaad 和 Memora——它们超越了现有线性循环神经网络 (RNN) 的计算能力,同时保持了快速可并行的训练过程。我们的实验表明,Miras 中的不同设计选择会产生具有不同优势的模型。例如,某些 Miras 实例在语言建模、常识推理和回忆密集型任务等特殊任务中表现出色,甚至超越了 Transformer 和其他现代线性循环模型。