SpeechBrain 旨在促进研究的透明度和可复现性。
为了推进这一使命,我们开发了有助于研究人员进行公平、稳健和标准化性能比较的基准测试。为此,我们创建了一个专门的 仓库 。
目前提供以下基准测试:
SpeechBrain-MOABB 是一个用于对应用于脑电图(EEG)信号的深度神经网络进行基准测试的开源 Python 库。
该仓库提供了一系列基于流行的 Mother of all BCI Benchmarks (MOABB) 的脑电图(EEG)信号处理配方,并与 SpeechBrain 无缝集成。
该软件包有助于在基于 MOABB 支持的任务(即运动想象 (MI)、P300 和稳态视觉诱发电位 (SSVEP))的标准化脑电图解码流程中集成和评估新算法(例如,新颖的深度学习架构或新颖的数据增强策略)。
参考文献
Davide Borra, Francesco Paissan, and Mirco Ravanelli. SpeechBrain-MOABB: An open-source Python library for benchmarking deep neural networks applied to EEG signals. Computers in Biology and Medicine, Volume 182, 2024. [论文]
Davide Borra, Elisa Magosso, and Mirco Ravanelli. Neural Networks, Page 106847, 2024. [论文]
DASB - Discrete Audio and Speech Benchmark 是一个使用流行的音频分词器(如 EnCodec, DAC 等)评估离散音频表示的基准测试,并与 SpeechBrain 集成。
该软件包有助于在备受关注的语音任务中集成和评估新的音频分词器,例如 语音识别、 说话人识别、 情感识别、 关键词检测、 意图分类、 语音增强、 分离、 文本转语音 等等。
它提供了一个用于轻松集成和测试模型的接口,以及一个用于比较不同音频分词器的协议。
参考文献
Pooneh Mousavi, Luca Della Libera, Jarod Duret, Arten Ploujnikov, Cem Subakan, Mirco Ravanelli, DASB - Discrete Audio and Speech Benchmark, 2024 arXiv preprint arXiv:2406.14294. [论文]
CL-MASR 是一个用于多语言 ASR 的持续学习基准测试。
它包含了使用少量方法(包括基于排练、基于架构和基于正则化的方法)对选自 Common Voice 13 的 20 种语言子集进行持续学习训练 Whisper 和 WavLM-based ASR 系统的脚本。
目标是在不断学习新语言的同时,限制遗忘之前学习过的语言。
一个理想的方法应该既能实现正向迁移(即利用先前任务的共享知识提高在新任务上的性能),又能实现反向迁移(即利用新任务的共享知识提高在先前任务上的性能)。
参考文献
Luca Della Libera, Pooneh Mousavi, Salah Zaiem, Cem Subakan, Mirco Ravanelli, (2024). CL-MASR: A continual learning benchmark for multilingual ASR. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 32, 4931–4944. [论文]
MP23 - Multi-probe Speech Self Supervision Benchmark 旨在评估自监督表示在各种下游任务上的性能,包括 ASR、 说话人验证、 情感识别 和 意图分类。
这个基准测试的关键特性是它允许用户选择他们想要的探头头进行下游训练。
这就是为什么我们称它为 Multi-probe Speech Self Supervision Benchmark (MP3S)。实践证明,模型的性能受到这一选择的很大影响
参考文献:
Salah Zaiem, Youcef Kemiche, Titouan Parcollet, Slim Essid, Mirco Ravanelli, (2023). Speech Self-Supervised Representation Benchmarking: Are We Doing it Right? Proceedings of Interspeech 2023 [论文]
Salah Zaiem, Youcef Kemiche, Titouan Parcollet, Slim Essid, Mirco Ravanelli, (2023). Speech self-supervised representations benchmarking: a case for larger probing heads. Computer Speech & Language, 89, 101695. [论文]