В данном репозитории содержится реализация модели DeepSpeech2 с использованием фреймворка pytorch.
Репозиторий организован следующим образом:
src
-- модули с реализацией компонент моделиsrc/datasets
-- реализация датасета для аудиофайловsrc/audio_utils
-- аугментации аудио и спектрограммsrc/decoding
-- beam search и greedy декодерsrc/deepspeech
-- реализация модели DeepSpeech2src/optimization
-- метрики и training loopsrc/logging_my
-- логгер процесса обученияsrc/inference
-- api для инференса модели
tests
-- тесты основных для компонент моделиexamples
-- примеры запуска обучения и инференсаexamples/scripts
-- примеры скриптов обученияexamples/notebooks
-- эксперименты с моделью и обучение из jupyter notebook
presentation
-- презентация с защиты проекта
Для использования модели реализован удобный интерфейс:
from src.inference import InferenceModel
model = InferenceModel(checkpoint_path='/path/to/checkpoint')
results = model.run(audio_path='/path/to/you/audio/file')
print(results)
# >> "Ваш отлично распознанный голос"
Для запуска проекта необходимо установить зависимости:
sh setup.sh
pip install -r requirements.txt
На основе данного репозитория реализован telegram бот.
[1] Deep Speech 2: End-to-End Speech Recognition in English and Mandarin. https://arxiv.org/pdf/1512.02595.pdf