DeepSpeech2

В данном репозитории содержится реализация модели DeepSpeech2 с использованием фреймворка pytorch.

Описание структуры репозитория

Репозиторий организован следующим образом:

src -- модули с реализацией компонент модели
- src/datasets -- реализация датасета для аудиофайлов
- src/audio_utils -- аугментации аудио и спектрограмм
- src/decoding -- beam search и greedy декодер
- src/deepspeech -- реализация модели DeepSpeech2
- src/optimization -- метрики и training loop
- src/logging_my -- логгер процесса обучения
- src/inference -- api для инференса модели
tests -- тесты основных для компонент модели
examples -- примеры запуска обучения и инференса
- examples/scripts -- примеры скриптов обучения
- examples/notebooks -- эксперименты с моделью и обучение из jupyter notebook
presentation -- презентация с защиты проекта

Использование модели

Для использования модели реализован удобный интерфейс:

from src.inference import InferenceModel

model = InferenceModel(checkpoint_path='/path/to/checkpoint')
results = model.run(audio_path='/path/to/you/audio/file')
print(results)
# >> "Ваш отлично распознанный голос"

Установка зависимостей

Для запуска проекта необходимо установить зависимости:

sh setup.sh
pip install -r requirements.txt

Ссылки

На основе данного репозитория реализован telegram бот.

[1] Deep Speech 2: End-to-End Speech Recognition in English and Mandarin. https://arxiv.org/pdf/1512.02595.pdf

[2] https://github.com/Polly42Rose/sirius-stt-bot

Name		Name	Last commit message	Last commit date
Latest commit History 42 Commits
ctcdecode		ctcdecode
examples		examples
images		images
presentation		presentation
src		src
test_files		test_files
tests		tests
.gitignore		.gitignore
README.md		README.md
pytest.ini		pytest.ini
requirements.txt		requirements.txt
setup.sh		setup.sh
vocabulary.py		vocabulary.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DeepSpeech2

Описание структуры репозитория

Использование модели

Установка зависимостей

Ссылки

About

Releases

Packages

Languages

nakhodnov17/sirius-stt

Folders and files

Latest commit

History

Repository files navigation

DeepSpeech2

Описание структуры репозитория

Использование модели

Установка зависимостей

Ссылки

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages