开放、简单、灵活、文档齐全且性能优异。
SpeechBrain 支持语音识别、增强、分离、文本到语音、说话人识别、语音到语音翻译、口语理解等领域的先进技术。
SpeechBrain 涵盖广泛的音频技术,包括声码器、音频增强、特征提取、声音事件检测、波束形成以及其他多麦克风信号处理功能。
SpeechBrain 提供用户友好的语言模型训练工具,支持从基础的 n-gram LM 到现代大型语言模型的各种技术。我们的平台可将其无缝集成到语音处理流程中,并有助于创建可定制的聊天机器人。
SpeechBrain 利用最先进的深度学习技术,包括自监督学习、持续学习、扩散模型、贝叶斯深度学习和可解释神经网络等方法。
SpeechBrain 旨在加速对话式 AI 技术的研究与开发。它为常用数据集提供了预构建的方案。提供丰富的文档和教程,以支持新手。
# From PyPI
pip install speechbrain
# Local installation
git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .
cd recipes/{dataset}/{task}/train
# Train the model using the default recipe
python train.py hparams/train.yaml
# Train the model with a hyperparameter tweak
python train.py hparams/train.yaml --learning_rate=0.1
class ASR_Brain(sb.Brain):
def compute_forward(self, batch, stage):
# Compute features (mfcc, fbanks, etc.) on the fly
features = self.hparams.compute_features(batch.wavs)
# Improve robustness with pre-built augmentations
features = self.hparams.augment(features)
# Apply your custom model
return self.modules.myCustomModel(features)