Распознавание речи

Сервис для распознавания речи доступен в облачной и локальной версии 1С:Предприятия 8.3.23 и выше.

С его помощью в приложениях 1С можно распознавать речь пользователя (как в реальном времени по мере произнесения, так и записанную в звуковой файл) и переводить её в текст. Распознавание речи будет делаться с помощью специально обученных нейросетей. Во встроенном языке появятся новые типы и методы для поддержки этой функциональности.

Например, можно разместить в почтовом приложении на форме письма кнопку, при нажатии на которую активируется распознавание речи, и текст письма можно будет надиктовать голосом. Или разместить такую кнопку возле поля «Адресаты», чтобы заполнить адресатов письма голосом.

В составе «Функций для технического специалиста» появится функция «Управление распознаванием речи»:

Эта функция, в частности, позволяет настроить доступность моделей (объектов, включающих в себя нейросети, обученные специальным образом), которые используются при распознавании речи.

Платформа может распознавать речь как локально, так и используя облачный сервис 1С. Для распознавания речи с в облачном сервисе нужно соединение с интернетом, учётная запись ИТС и подписка на сервис распознавания речи. Для локального распознавания нужно будет скачать модели распознавания речи из облачного сервиса 1С; хотим заметить, что для локального распознавания речи могут потребоваться дополнительные аппаратные ресурсы.

При этом для использования моделей на своих серверах не нужно устанавливать дополнительное ПО – всё необходимое уже входит в состав платформы.

В первой версии сервиса доступна только одна модель распознавания речи. При распознавании речи можно задать желаемые значения параметров:

  • «Акустика»: в каких условиях ведется работа — в помещении, на улице и т.п.
  • «Грамматика»: определяет специфические грамматические правила и слова, относящиеся к определенной прикладной области.
  • «Язык»: на каком языке следует вести распознавание речи.

И сервис распознавания речи подбирает наиболее подходящую для заданных значений модель.

Модель, поставляемая в первой версии, поддерживает только один тип акустики — «Общий» («General»), один тип грамматики — «Общий» («General»), и два языка – русский и английский.

Грамматику моделей можно расширять для своих задач (например, задавая список фамилий из адресной книги почтового клиента). Тогда начнут распознаваться ранее неизвестные системе фамилии. Грамматику также можно будет расширить, когда ожидается распознавание узкоспециализированных терминов из какой-то специфической предметной области, например, медицинской.

Встроенный язык расширен новыми типами и методами для распознавания речи. У глобального контекста появится новое свойство РаботаСРечью, возвращающее объект нового типа МенеджерРаботыСРечью. С помощью методов этого объекта можно будет, в частности:

  • Переводить речь (произносимую в реальном времени или записанную в звуковой файл) в текст
  • Оперировать моделями распознавания речи (получить список доступных моделей, соответствующих заданным акустике, грамматике и языку, установить и удалить модель распознавания речи для информационной базы)
  • Оперировать грамматиками (получить список доступных грамматик, установить дополнительные грамматики, удалить грамматику)

А вот как это работает. С помощью сервиса распознавания речи программа из нескольких строк кода позволяет голосом надиктовать текст письма.