RUS
EN
 / Главная / Все новости / Цифровой корпус русского языка создадут на Дальнем Востоке

Цифровой корпус русского языка создадут на Дальнем Востоке

Редакция портала «Русский мир»
02.07.2019

Фото: Depositphotos


Оцифровкой русского языка займутся специалисты Школы цифровой экономики Дальневосточного федерального университета (ШЦЭ ДВФУ). Они создадут цифровой корпус русского языка, предназначенный для обучения нейросетей, машин и разработки цифрового менеджера — синтетической личности на основе искусственного интеллекта, сообщает ComNews. Базой для проекта является магистерская образовательная программа «Искусственный интеллект и большие данные», открытая в вузе при содействии корпоративного университета «Сбербанка» и «Нейросетей Ашманова».

Цифровой менеджер станет одним из первых продуктов крупного проекта. Предполагается, что он сможет поддерживать с пользователем сложные диалоги, давать неочевидные ответы, направлять беседу с помощью наводящих вопросов, решать сервисные задачи в круглосуточном режиме. Использовать менеджер можно будет в работе переводчиков, call-центров, различных экспертных, управляющих и обучающих систем.

Руководитель ШЦЭ ДВФУ Илья Мирин отметил, что фактически речь идёт о создании академического корпуса русского языка подобно тем, что в глобальном масштабе имеются лишь для французского и английского языков. Лингвистам предстоит с помощью сайта и мобильного приложения собрать аудио-корпус, а затем разместить его в порядке, понятном машине. Это объёмная работа, рассчитанная не на один год. Тем не менее первый этап накопления материала реально завершить уже в следующем году, после чего его можно оцифровывать.

Привлечь к работе планируется студентов ДВФУ, филологов и специалистов по компьютерной лингвистике. Последним предстоит обработать аудиоматериал: разбить его на части, проставить ударения и паузы, обозначить монологи и диалоги, соотнести речь с написанным текстом, отделить тексты, начитанные с листа, от разговорных фраз.

Конечной целью является «обучение» русскому языку машин, уточнил Илья Мирин. На нём должны «заговорить» микроволновки и принтеры, автомобили и промышленные роботы, целый ряд других устройств и систем. А для этого требуется оцифровать язык и перевести в модель самообучающейся нейросети. Это важная цивилизационная задача, убеждён эксперт.

Эксперты считают, что проект значительно продвинет исследования в области распознавания и синтеза речи в России и мире. Причём в планах создать также речевые корпуса для языков малых народов России.

Метки:
русский язык, инновации

Новости по теме

Новые публикации

23 августа 1939-го Москва подписала с Берлином нашумевший договор о ненападении и секретный протокол к нему. Сегодня многие западные историки и СМИ представляют это соглашение едва ли не как свидетельство преступного союза Сталина и Гитлера, поделивших между собой Восточную Европу. Но был ли у советского руководства выбор? Об этом рассуждает председатель попечительского совета Российского военно-исторического общества Сергей Иванов.
Евгений Малиновский – многогранный артист, родом из Сибири, живущий в Варшаве, и больше всего известный польской публике как «сибирский бард», отметил 25-летие своей творческой деятельности Польше. В нашей беседе на творческом вечере – концерте под названием «Одно сердце – два Отечества» в уютном варшавском салоне „Kalinowe Serce” Евгений признался, что хотя в нём течёт польская кровь по дедушке, он не сразу выбрал Польшу своей второй родиной.