2026年产业专题：2025年脑机接口热点研究进展

国泰海通证券2026/02/24
举报

一种即时语音合成神经假体

摘要：脑机接口（Brain-Computer Interface，BCI）有希望为因神经系统疾病或损伤而丧失说话能力的人恢复自然语言交流能力。脑机接口已被用于将试图说话时的大脑神经活动解码并转化为文字。然而，文字交流无法捕捉人类言语中的细微差别，比如语调以及即刻听到自己声音的感觉。在此，我们展示了一种 “brain-to-voice” （脑-语音）的神经假体，它通过解码植入一名患有肌萎缩侧索硬化症（ALS）和严重构音障碍的男子腹侧中央前回的 256 个微电极的神经活动，即时合成具有闭环音频反馈的语音。它克服了缺乏用于训练神经解码器的真实语音的挑战，并能够准确地合成他的声音。除了音素内容外，还能够从皮层内活动中解码副语言特征，使参与者能够实时调节其脑机接口合成的声音，从而改变语调、强调单词并唱出短旋律。这些结果证明了通过脑机接口帮助瘫痪者清晰而富有表现力地说话的可行性。

试验对象：试验参与者是一名左利手、45 岁男性（T15），他的 ALS 相关症状在入组前 5 年开始出现。入组时，他已经丧失了运动能力（上下肢活动能力），需要依靠他人完成移动或日常工作。患者能发声但是不能发出清晰的语音，而且发声速度明显低于健康者。研究团队在其左前中央回植入了四块共 256 通道（4*64通道）的微电极阵列（Utah 电极，Blackrock Microsystems），覆盖腹侧运动前皮层（6v）、背侧运动前皮层、初级运动皮层（M1）和中部中央前回（55b）等区域。本研究开发了一套实时神经解码流程（图 1c），用于在患者尝试按照自己的节奏说出屏幕上提示的句子时，通过皮层内神经活动即时合成其语音，并提供持续的音频反馈。由于参与者无法清晰地讲话，无法掌握他尝试说话的方式和时间。因此，为了生成对齐的神经和语音数据来训练解码器，开发了一种算法，可以直接从神经活动中识别假定的音节边界，从而能够生成与神经记录时间对齐的目标语音，作为患者预期语音的替代（图 1 d）。试验采用多层 Transformer 架构构建神经解码器，提取的神经特征，预测语音的频谱和音高特征，通过声码器实时合成语音。整个处理流程（从神经信号采集到语音播放）延迟小于 10 毫秒，实现实时闭环反馈。

试验结果：研究测试了脑-语音接口在患者朗读提示句时从神经信号中实时合成语音的能力。合成语音与目标语音的相关性高（r = 0.83±0.04），人类听众对 933 句语音的识别准确率中位数达 100%。系统能准确跟随患者缓慢的发音节奏。四块电极阵列均有贡献，以 v6v 和 55b 最显著。即使在词汇量仅 50 词的首日也能训练有效模型。与非因果方法相比，即时合成更具挑战性，但更接近自然交流需求。系统也适用于“哑语”模式（仅动口不发声），合成结果与发声模式相当（r=0.82 ±0.03），患者表示此模式更省力。研究进一步测试了系统在无提示、自主发言中的表现。患者通过脑-语音接口回答屏幕上的问题或自由表达，语音合成相关性为 0.79±0.05，略低于提示发音，可能因其发音策略不同。该系统不依赖固定词汇或语言模型，支持合成伪词、感叹词（如“aah”“hmm”）和拼写单词，尽管这些任务未参与训练，合成相关性仍达 0.79±0.08。最后，研究还展示了个性化“原声”合成功能，使用语音克隆技术重建患者患病前的声音。患者反馈称“听到自己的声音让我感到开心”，其合成准确性为0.77±0.05。总体而言，该脑-语音系统具备良好的灵活性和泛化能力，支持多种自然语言表达形式。

研究还进一步解码了语音中的副语言特征（如语速、音量、语调、音高），实现更自然的语音合成：语速控制：患者尝试以快速（0.97±0.19 秒/词）、慢速（1.46±0.31 秒/词）发音，合成语音的单词时长明显不同，系统准确反映其节奏意图。语调变化：患者可通过神经活动控制语句尾音上扬，实现疑问语气；准确率 90.5%。重音控制：强调句中不同单词时，神经活动在该词前 350ms 明显增强；识别准确率 95.7%。所有闭环测试中，对强调词语、疑问词语、陈叙词语的识别准确性为 80.0%。音高调节：患者尝试唱三音高旋律（低、中、高），系统成功解码其意图并合成相应音高语音。为了评估合成音高水平的人类感知，人类听众被要求从 189 对音符中选择较高音调（低×中，低×高、中×高音）。人类对音高的平均分类准确率为 73.02%。统一解码器：在加入旋律任务数据后，原解码器也能学习音高控制，实现音素与音高的同步合成。结果表明：语音运动皮层不仅编码语音内容，也同时编码丰富的表达特征，系统具备实时生成带语气和情感的语音能力。

讨论与局限性：本研究展示了一种即时脑-语音神经假体系统，能够将 ALS 患者大脑中记录的神经信号直接转化为实时语音，实现自然的交流能力。据 EDPJ 分析，与以往依赖文本输出或离线语音解码的工作相比，该系统具备以下优势：1）实时反馈：用户一尝试说话，即可听到合成语音，提升交流效率；2）表达灵活：支持自由语句、感叹词、拼写词、伪词等非结构化语言；3）副语言合成：可调节音高、语调、重音，实现疑问句、情感表达和旋律；4）原声音个性化：可合成用户患病前的声音，增强身份认同与心理恢复；5）无中间限制：无需依赖离散语音单元或预定义词汇表。神经分析还揭示，语音运动皮层的输出无关子空间蕴含丰富准备信息，尤其在句子开头或调节语调前尤为活跃，表明大脑在语音生成中具备“预缓冲”机制。尽管结果显著，仍存在局限性：该研究仅在一位 ALS 患者中验证，语音清晰度偶有波动，参与者发音状态与注意力也会影响效果。未来通过长期使用、更多数据积累和模型优化，系统性能有望持续提升。同时，增加电极数量也可进一步提高解码精度。

AI 辅助增强脑机接口性能

摘要：运动脑机接口（BCI）通过解码神经信号，帮助瘫痪患者实现运动和交流。尽管过去二十年已取得重要进展，但脑机接口在临床可行性方面仍面临一个关键障碍：其性能必须显著超过其成本与风险。为大幅提升脑机接口的性能，我们采用了共享自主权的方法，即人工智能辅助与脑机接口用户协作以实现任务目标。我们在一种基于脑电图信号解码的非侵入式脑机接口系统中展示了这一 AI 辅助型脑机接口。我们首先提出了一种混合自适应解码方法，该方法结合了卷积神经网络与类 ReFIT 卡尔曼滤波器，可以让健康用户和一名瘫痪患者能够通过解码脑电图（EEG）信号控制计算机光标和机械臂。随后，我们设计了两种 AI 辅助功能以帮助完成光标控制和机械臂抓-放任务。试验证明，该 AI 辅助型脑机接口使一名瘫痪患者在光标控制任务中的目标命中率提升了 3.9 倍，并能控制机械臂将随机放置的积木按顺序移至随机位置——这是一项在没有 AI 辅助下无法完成的任务。随着 AI 辅助技术的进步，基于共享自主权设计的脑机接口有望实现更高的性能。

研究背景和目的：传统运动 BCI（如计算机光标控制、机械臂控制）的唯一控制来源是解码的神经信号，然而多数实际任务具有明确的目标导向性——无论是计算机界面中的按钮、搜索框等虚拟目标，还是现实中的杯子、积木等物理对象，用户的动作往往围绕有限目标展开。一旦明确用户意图，人类动作具有一定的刻板性，这为 AI 辅助提供了空间。基于此，研究提出“共享自主权”理念：由人类用户（主导者）与 AI 辅助协同控制，结合神经信号、任务结构、历史动作、计算机视觉等多源信息推断用户目标，进而辅助完成动作，突破传统 BCI 仅依赖神经解码的性能瓶颈。研究聚焦非侵入式脑电图解码系统，旨在通过 AI 辅助显著提升 BCI 在光标控制和机械臂操作中的性能，为瘫痪人群提供更高效的运动辅助方案。

研究方法：试验包括三名健康参与者（H1、H2 和 H4）和一名脊髓损伤患者（S2），健康人使用手部运动执行。患者 T5 脊髓损伤（完全截瘫）且双腿无活动，其 EEG 信号来自腿部运动尝试。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）