上海交通大学计算机科学与工程系(CSE)

新闻动态

计算机系吕宝粮团队在机器学习顶会ICLR 2024发表最新研究成果

发布时间：2024-01-24

近期，国际机器学习领域的顶级会议之一The 12th International Conference on Learning Representations（ICLR 2024）揭晓论文录用榜单。上海交通大学电子信息与电气工程学院计算机科学与工程系吕宝粮教授团队携手上海零唯一思科技有限公司合作的 “Large Brain Model for Learning Generic Representations with Tremendous EEG Data in BCI” （一个用大量脑机接口脑电数据学习通用表示的脑电大模型）论文被选为ICLR2024 Spotlight论文。本届会议全球投稿7262篇论文，整体接收率约为31%，其中5%的论文被选为Spotlight论文。

研究介绍：

目前，基于脑电（EEG）信号的深度学习模型通常是为特定数据集或脑机接口（BCI）应用任务设计的，这限制了模型的规模，也未能充分发挥脑电信号的表征能力。近期，大型语言模型（LLM）在处理文本任务上取得了划时代的进展。在此背景下，吕宝粮教授团队着手研究大型脑电模型（LEM）。虽然两者领域不同，但在数据解码的任务目标上存在共通之处。研究人员借鉴文本处理的成功理念，以探索脑电信号分析和构建脑机接口模型的新方法，拓展这一领域的科研视野和应用前景。

然而，与文本数据相比，通常脑电数据集的规模非常小，格式也千差万别。开发大型脑电模型面临着下列几方面的挑战：

1) 缺乏足够的脑电数据。

与自然语言和图像数据相比，收集大规模的脑电数据异常困难。此外，脑电数据的标注通常需要领域专家投入大量精力，从而导致只有少量标注的数据集可用于 BCI 中的特定任务，而这些任务的脑电信号通常是从少数被试收集到的，持续时间通常少于数十小时。因此，目前还没有一个足够大的脑电数据集来支持LEM的训练。

2) EEG信号采集的多样化配置。

尽管有国际通用的10-20系统来确保脑电信号采集的标准化，但用户仍可根据实际应用需要，选择使用不同电极编号或贴片电极的脑电帽来采集脑电数据。因此，如何处理不同格式的脑电数据，以匹配神经Transformer的输入单元，仍是一个需要探索的问题。

3) 缺乏有效的脑电表征学习范式。

脑电数据的低信噪比（SNR）和不同类型的噪声是一个非常棘手的问题。此外，平衡时间和空间特征对于有效的脑电表征学习至关重要。尽管有各种基于深度学习的脑电表征学习范式（如 CNN、RNN 和 GNN）可用于原始脑电数据处理，但由于上述问题，许多研究人员仍倾向于设计人工脑电特征。

本文的目标是设计一种通用的大型脑电模型，称为LaBraM。该模型可有效处理不同通道和长度的各种脑电数据。通过对大量脑电数据进行无监督训练，研究团队设想该模型将具备通用的脑电表征能力，使其能够快速适应各种脑电下游任务。为了训练LaBraM，研究人员从20个公开的脑电数据集中收集了超过2500个小时的各种任务和格式的脑电数据。

首先，将原始脑电信号分割成脑电信号通道片段，以解决不同电极和时间长度的问题。采用向量量化神经频谱预测训练语义丰富的神经标记器，以生成神经词汇。具体来说，标记器是通过预测原始信号的傅立叶频谱来训练的。在预训练期间，部分脑电片段会被掩蔽，而神经Transformer的目标是从可见片段中预测被掩蔽的标记。研究团队预训练了三个不同参数大小的模型，580万、4600万和3.69 亿，这是迄今为止 BCI 领域最大的模型。随后，研究团队在四种不同类型的下游任务上对它们进行了微调，这些任务包括分类和回归。

图1 LaBraM的整体架构。首先，所有输入的脑电信号将通过一个固定长度的时间窗口分割成脑电信号片段，然后对每个片段应用时间编码器提取时间特征。然后，将时间和空间嵌入添加到片段特征中，以携带时间和空间信息。最后，将嵌入序列按片段顺序传入Transformer编码器，以获得最终输出。

论文引入了神经Transformer，这是一种用于解码脑电信号的通用架构，可以处理任意通道数和时间长度的任何输入脑电信号，如图1所示。实现这一目标的关键操作是将脑电信号分割成块，其灵感来自图像中的片段嵌入。由于脑电在时间域的分辨率很高，因此在通过自我注意进行片段交互之前提取时间特征至关重要。采用由多个时域卷积块组成的时域编码器，将每个脑电片段编码成片段嵌入。时态卷积块由一维卷积层、组归一化层和GELU 激活函数组成。为了使模型能够感知片段嵌入的时间和空间信息，研究人员初始化了一个时间嵌入列表和一个空间嵌入列表。对于任意片段，将其对应的时间嵌入和空间嵌入加到片段嵌入上。最后，嵌入序列将直接输入Transformer编码器。

论文在两个下游任务数据集上验证了LaBraM的有效性：TUAB和TUEV。研究团队设计了三种不同的LaBraM配置：LaBraM-Base、LaBraM-Large和LaBraM-Huge。LaBraM-Base的参数数为5.8M，LaBraM-Large为46M，LaBraM-Huge为369M。

以上表1和表2列出了 TUAB 和 TUEV 中最佳的基线结果以及LaBraM的结果。很明显，LaBraM-Base模型在这两项任务的各种评估指标上都优于所有基线模型。特别是在更具挑战性的 TUEV 多类分类任务中，模型取得了显著的性能提升。论文观察到随着模型参数数量的增加，LaBraM-Huge模型的表现最好，其次是 LaBraM-Large模型，最后是LaBraM-Base模型。研究团队认为这一良好的表现归功于预训练数据量和模型参数的增加。论文推断，只要有足够多的脑电数据，大规模脑电模型就能学习到更通用的脑电表征，从而提高脑电信号在各种下游任务上的性能。

图2 比较模型在TUAB和TUEV数据集上的性能，是否将自身纳入预训练过程。

在预训练过程中，研究团队希望模型能够学习到不针对任何特定任务的通用脑电表征。虽然在预训练过程中没有使用标签数据，但为了消除预训练数据对下游任务的影响，论文比较了是否将下游任务数据集纳入预训练过程的结果。值得注意的是，TUAB和TUEV的记录与预训练数据集的记录是不相交的。如图2所示，是否将下游任务数据集纳入模型的预训练过程，对模型在下游任务上的性能影响不大。这表明困文模型具有学习通用脑电表征的能力，并为将来收集更多脑电数据提供了指导，即研究人员无需在预训练过程中花费大量精力标注脑电数据。

作者信息

上海交通大学计算机科学与工程系博士研究生姜卫邦为本文的第一作者，上海零唯一思科技有限公司赵黎明博士和上海交通大学计算机科学与工程系吕宝粮教授为本文共同通讯作者。

吕宝粮，上海交通大学计算机科学与工程系长聘教授、上海交通大学医学院附属瑞金医院广慈教授、博士生导师、IEEE Fellow。现任上海交通大学智能交互与认知工程上海高校重点实验室主任、上海交通大学清源研究院执行院长、上海交通大学医学院附属瑞金医院脑机接口与神经调控中心共同主任、上海交通大学医学院附属瑞金医院脑病中心-米哈游联合实验室主任和上海零唯一思科技有限公司创始人兼首席科学家。担任IEEE Transactions on Affective Computing、Journal of Neural Engineering、IEEE Transaction on Cognitive and Developmental Systems、《模式识别与人工智能》和《智能科学与技术学报》编委。荣获2022亚太神经网络学会杰出成就奖、ACM MM 2022 Top Paper奖、2021 IEEE Transactions on Affective Computing最佳论文奖、2020年度吴文俊人工智能自然科学一等奖和2018 IEEE Transactions on Autonomous Mental Development 最佳论文奖，入选爱思唯尔2020、2021和2022中国高被引学者榜单。主要研究领域包括仿脑计算理论与模型、深度学习、情感智能、情感脑机接口及其在情感障碍疾病诊疗中的应用。

论文链接：https://openreview.net/forum?id=QzTpTRVtrP