Тезисы
Я работаю в университете, и бывает так, что мои друзья защищают диссертации. Сама защита — это не только блестящее выступление соискателя на диссовете и торжественный банкет после. Это ещё и куча рутины: например, согласно требованиям ВАК, во время защиты необходимо вести аудиофиксацию всего процесса, а затем долго и мучительно расшифровывать аудио и записывать его в виде текста стенограммы.
И я решил помочь своим друзьям и коллегам, разработав для них «Писец» — штуку, которая преобразует речь из аудиофайла (или звуковой дорожки видеофайла) в нормальный текст с таймингами, представленный в человекочитаемом формате субтитров SubRip. На основе таких субтитров составлять стенограмму звукозаписи гораздо веселее и приятнее.
Существует ряд алгоритмов и открытых систем автоматического преобразования русской речи в текст, включая нашумевший в 2022 году Whisper от OpenAI, но я решил сделать свой «велосипед» и обучить собственную модель распознавания речи.
Зачем? Есть ли у такого «велосипеда» свои полезные особенности? И можно ли обобщить данный подход на другие задачи — например, стенограмму дейлика или автогенерацию фоллоу-ап по итогам еженедельного созвона? В своём рассказе я постараюсь обсудить с вами эти и другие вопросы построения практически полезных систем для русского speech-to-text из опенсорсных «кирпичиков».
Аудитория
Backend-developer, project-manager, product-manager, data-scientist, ml-engineer, everyone.
Уровень сложности
Middle.
Презентация (на Я.Диске)
Любит свою семью и машинное обучение, преподает в НГУ, делает нейросети, ходит в горы. С 2006 до 2013 года преподавал и занимался научными исследованиями в Донецком национальном техническом университете, затем перешёл в IT-индустрию и работал на различных должностях — от инженера-разработчика до специалиста по машинному обучению — в ряде компаний, таких как 2ГИС, Huawei, Global Logic, Data Monsters. В период с 2018 до 2020 года удалённо работал в МФТИ (в том числе в команде проекта DeepPavlov), сочетая это с работой в Data Monsters — индустриальном партнёре Физтеха — на позиции Solution Architect. Начиная с 2022 года, решил окончательно вернуться в академическую сферу из индустриальной, уволился с должности инженера ключевых проектов Huawei Russian Research Institute, и теперь целиком и полностью работает в Новосибирском государственном университете.