Skip to content

nakhodnov17/sirius-stt

 
 

Repository files navigation

DeepSpeech2

В данном репозитории содержится реализация модели DeepSpeech2 с использованием фреймворка pytorch.

Описание структуры репозитория

Репозиторий организован следующим образом:

  • src -- модули с реализацией компонент модели
    • src/datasets -- реализация датасета для аудиофайлов
    • src/audio_utils -- аугментации аудио и спектрограмм
    • src/decoding -- beam search и greedy декодер
    • src/deepspeech -- реализация модели DeepSpeech2
    • src/optimization -- метрики и training loop
    • src/logging_my -- логгер процесса обучения
    • src/inference -- api для инференса модели
  • tests -- тесты основных для компонент модели
  • examples -- примеры запуска обучения и инференса
    • examples/scripts -- примеры скриптов обучения
    • examples/notebooks -- эксперименты с моделью и обучение из jupyter notebook
  • presentation -- презентация с защиты проекта

Использование модели

Для использования модели реализован удобный интерфейс:

from src.inference import InferenceModel

model = InferenceModel(checkpoint_path='/path/to/checkpoint')
results = model.run(audio_path='/path/to/you/audio/file')
print(results)
# >> "Ваш отлично распознанный голос"

Установка зависимостей

Для запуска проекта необходимо установить зависимости:

sh setup.sh
pip install -r requirements.txt

Ссылки

На основе данного репозитория реализован telegram бот.

[1] Deep Speech 2: End-to-End Speech Recognition in English and Mandarin. https://arxiv.org/pdf/1512.02595.pdf

[2] https://github.com/Polly42Rose/sirius-stt-bot

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 99.8%
  • Shell 0.2%