SpeechBrain: 面向所有人的开源对话式AI

主要特性

开放、简单、灵活、文档齐全且性能优异。

语音

SpeechBrain 支持语音识别、增强、分离、文本到语音、说话人识别、语音到语音翻译、口语理解等领域的先进技术。

音频

SpeechBrain 涵盖广泛的音频技术，包括声码器、音频增强、特征提取、声音事件检测、波束形成以及其他多麦克风信号处理功能。

文本

SpeechBrain 提供用户友好的语言模型训练工具，支持从基础的 n-gram LM 到现代大型语言模型的各种技术。我们的平台可将其无缝集成到语音处理流程中，并有助于创建可定制的聊天机器人。

技术

SpeechBrain 利用最先进的深度学习技术，包括自监督学习、持续学习、扩散模型、贝叶斯深度学习和可解释神经网络等方法。

研究与开发

SpeechBrain 旨在加速对话式 AI 技术的研究与开发。它为常用数据集提供了预构建的方案。提供丰富的文档和教程，以支持新手。

HuggingFace！

SpeechBrain 提供具有用户友好界面的预训练模型，使得转录、说话人验证、语音增强和声源分离等任务比以往任何时候都更容易。

为什么选择 SpeechBrain？

适应您的需求。

您可以通过 PyPI 安装 SpeechBrain 以快速访问其功能，也可以通过本地安装来访问方案并深入研究工具包。

立即开始


  # From PyPI
  pip install speechbrain

  # Local installation
  git clone https://github.com/speechbrain/speechbrain.git
  cd speechbrain
  pip install -r requirements.txt
  pip install --editable .

一个简单的命令。

每个 SpeechBrain 方案在一个 YAML 文件中定义所有超参数。训练过程由一个 Python 脚本协调。

立即开始


  cd recipes/{dataset}/{task}/train

  # Train the model using the default recipe
  python train.py hparams/train.yaml

  # Train the model with a hyperparameter tweak
  python train.py hparams/train.yaml --learning_rate=0.1

专为研究而构建。

SpeechBrain 专为研究与开发而设计。因此，灵活性、透明度和可复现性是提升我们日常工作流程的核心理念。用户可以轻松定义自定义深度学习模型、损失函数、训练/评估循环以及输入管道/转换，并轻松集成到现有流程中。

立即开始


  class ASR_Brain(sb.Brain):
    def compute_forward(self, batch, stage):

      # Compute features (mfcc, fbanks, etc.) on the fly
      features = self.hparams.compute_features(batch.wavs)

      # Improve robustness with pre-built augmentations
      features = self.hparams.augment(features)

      # Apply your custom model
      return self.modules.myCustomModel(features)