news_header_top_970_100
news_header_bot_970_100

В Интернете появился проект Common Voice, распознающий татарскую речь

По словам организатора, проекту нужна помощь широкой общественности, волонтеров.

news_top_970_100

(Казань, 13 августа, «Татар-информ», Зиля Мубаракшина). На днях появился распознаватель татарской речи под названием «Common Voice». Как отмечает организатор проекта, собранные голосовые образцы будут полезны не только в системах распознавания языка, но и станут богатым материалом для совершенствования знаний изучающим татарский язык. Поэтому столь важна помощь широкой общественности и многочисленных волонтеров. Об этом корреспонденту агентства «Татар-информ» сообщил один из создателей проекта Мансур Сайхунов.

«Еще недавно мы вместе устанавливали на сайте Intertat.tatar программу „Тэлгать“, позволяющую переводить текст в речь. Системы, работающие по обратному принципу, то есть переводящие устную речь в форму текста, относятся к области распознавания речи. Среди них самыми известными у нас являются системы „Ok, Google!“ (Google), Siri (Apple), Алиса (Яндекс)», — рассказал Мансур Сайхунов.

«В направлении распознавания речи сегодня созданы высококачественные системы для многих языков. Но ситуация для многочисленных малых языков мира остается сложной. Создание таких систем требует и много сил, и затрат, и времени. Крайне сомнительно, что отдельные маленькие коллективы могли бы добиться каких-либо результатов в данной работе. Поэтому создание одной общей системы и использование ее для всех языков являются самым удобным и экономически выгодным вариантом», — говорит М. Сайхунов.

Проект «Common Voice» компании Mozilla преследует именно такую цель. Работа над системой началась еще в 2017 году, и в 2018 году появилась возможность работать на всех языках. «Мы с Ильнаром Салимжановым в качестве волонтеров перевели интерфейс „Common Voice“ на татарский язык и произвели первоначальные установки, и в июне этого года татарская версия заработала. Но это лишь начало пути, потому как для создания системы распознавания речи необходимо собрать большую речевую базу», — отметил Мансур Сайхунов.

По словам волонтера, программа нуждается в помощи широкой общественности, и таких же добровольцев, как он сам. «Проект „Common Voice“ за это предоставляет им удобный интерфейс работы через Интернет: на данный момент несколько волонтеров постоянно заняты в работе проекта. Оказывают помощь сотрудники Института языка, литературы и искусства Академии наук РТ и Института филологии и межкультурной коммуникации им. Льва Толстого Казанского федерального университета», — поделился рабочими моментами специалист.

«Каждый желающий может зайти на сайт через ноутбук, компьютер (при наличии отдельного микрофона) или, самое удобное, через смартфон, прочитать представленные предложения, проверить правильность чтения и сохранить на сервере. Много времени для этого не потребуется. Если все читатели данной статьи ежедневно посвятят этому занятию 5-10 минут, то, я думаю, в течение года мы сможем собрать объемную базу, которая позволит усовершенствовать процесс распознавания татарской речи», — считает М. Сайхунов.

Как отметил организатор, в программе можно записать свой голос, а также участвовать в проверке записей других участников. «Для данного проекта нет необходимости записывать голос в студии. На фоне речи могут присутствовать другие звуки: проезжающие мимо машины, ветер, пение птиц или соседского петуха, внезапно закукарекавшего во время записи и т.д. Самое главное, проект призывает активно участвовать представителей различных диалектов, ведь богатство языка не ограничивается литературным языком, его составляют разные диалекты, акценты. Поэтому здесь не может и не должно быть слов „Я плохо знаю татарский язык“. Если вы можете прочитать и понять смысл простого предложения на татарском языке, добро пожаловать на проект Common Voice! Собранные в рамках проекта голосовые образцы будут полезны не только в системах распознавания языка, но, например, станут богатым материалом для изучения татарской речи в рамках экспериментальной фонетики в стенах Казанского федерального университета, для совершенствования знаний тех, кто изучает татарский язык», — уверен Мансур Сайхунов.

Преимущества проекта Common Voice:
1. Он полностью разработан в рамках открытых лицензий (GNU General Public License, Creative Commons), то есть коды и базы данной системы предоставляются каждому бесплатно. Любой пользователь или любая организация, без получения разрешения, бесплатно, свободно может загрузить проект в Интернете и начать им пользоваться.
2. В работе международного проекта участвуют ученые из разных стран и различных университетов, поэтому здесь находят отражение самые передовые достижения современной науки.
3. Как и другие большие проекты, «Common Voice» предусматривает возможность интегрировать с разными программами, системами. Например, если организация использует в работе с клиентами «Common Voice» для распознавания русской речи, то без особого труда и затрат организация сможет работать с клиентами и на татарском, чувашском и других языках.
4. Уделяется большое внимание малым языкам.

Примечания:
• Главная страница «Common Voice» на татарском языке: https://voice.mozilla.org/tt
• Для записи предложений пройдите по ссылке: https://voice.mozilla.org/tt/speak
• Если хотите проверить записи других участников: https://voice.mozilla.org/tt/listen

На данный момент система работает только в браузерах Mozilla Firefox и Google Chrome.

news_right_column_240_400_1
news_right_column_240_400_2
news_bot_970_100