Голосовой помощник
B
Голосовой помощник — программное обеспечение, позволяющее управлять мобильным устройством или компьютером посредством голосовых команд. Современный голосовой помощник (или "виртуальный ассистент" от англ. "virtual assistant") может упростить поиск информации в Интернете, запустить различные системные функции и приложения, и даже выступать в роли виртуального собеседника!
Помимо распознавания голоса, виртуальный ассистент может также озвучивать текстовую информацию (например, результаты поиска), "говорить" с человеком или "общаться" с ним в виде текстового чата. Полноценный диалог ни с одним из голосовых помощников, к сожалению, пока невозможен. Однако, разработчики трудятся над улучшением искусственного интеллекта и постоянно совершенствуют корректность реакции своих программ на реальные вопросы пользователей.
На сегодняшний день наблюдается тенденция к закреплению за популярными операционными системами собственных голосовых помощников. Так, на iOS штатным ассистентом является программа Siri, на Android — Google Assistant, на Windows — Cortana. Об этих и некоторых других современных "умных" помощниках и пойдёт речь в статье ниже.
Ваш виртуальный ассистент
![]() | |
Язык: | Русский |
Платформа: | |
Обновлено: | 2018-09-02 |
Автор: |

Обзор современных голосовых помощников для Windows, Android и iOS.
Ещё не так давно помню, как вызывали недоумение люди с Bluetooth-гарнитурами, которые ходили по городу и разговаривали "сами с собой". Сегодня некоторые пошли ещё дальше и теперь "разговаривают" со своим смартфоном, планшетом, а кое-кто даже с ноутбуком. И это не массовая шизофрения, а очередной виток технического прогресса. Ведь современные устройства всё чаще оснащаются приложениями класса "голосовой помощник".
Идея создать программу, которая могла бы распознавать человеческую речь, далеко не нова и муссируется ещё с 90-х годов прошлого уже века. Однако, реализовать её не так-то просто. Во-первых, для работы такой системы нужна довольно мощная аппаратная база с хорошим микрофоном, которая бы могла в реальном времени оцифровать голос, распознать его, обработать и дать обратную связь. Во-вторых, на программном уровне требуется создать универсальную базу звуков для их правильной интерпретации, ведь произношение, высота и тембр голоса у всех разный!
Первые голосовые помощники стали доступны пользователям в начале нулевых, когда мощности персональных компьютеров "доросли" до поддержки весьма увесистых программ. Основная масса тогдашних решений реализовывалась под Windows и была направлена больше на реализацию голосового ввода текста.
Правда, уже тогда появились и более функциональные разработки. Например, я в своё время покупал программу Перпетуум М, которая могла не только распознавать речь, но и выполнять запуск нужных приложений по команде (правда, для её работы нужно было долго и нудно надиктовывать своим голосом эти самые команды, на что мне так и не хватило терпения :)).
С появлением более или менее мощных мобильных устройств вопрос о создании приложений, реагирующих на голос встал с новой силой. Ведь в лице смартфона мы имеем неплохую по мощности аппаратную базу со встроенным микрофоном. И решения не заставили себя долго ждать. Сегодня мы имеем в той или иной степени доведённые до ума голосовые помощники практически для всех популярных платформ. Поэтому нелишним будет разобраться во всём этом многообразии.
Apple Siri
Одним из первых реально действующих решений, которое породило новый виток в развитии голосовых помощников, можно с уверенностью назвать разработку Siri (сокр. от англ. "Speech Interpretation and Recognition Interface" – "интерфейс распознавания и интерпретации речи") от компании Apple. Правда, изначально Сири появилась в AppStore как обычное приложение от отдельной конторы Siri inc., но уже в начале 2010 года была выкуплена корпорацией Джобса.
Интересно, что первые разработчики анонсировали скорый выход Siri для Android и BlackBerry. Но после того, как права на дальнейшую разработку перешли Apple, система стала прерогативой лишь "яблочной" техники. Впервые же в качестве штатного средства распознавания речи Siri появилась в iPhone 4S и с тех пор постоянно совершенствуется. Изначально она использовалась лишь для голосового ввода текста. Однако, постепенно, её "научили" выполнять различные действия. Сегодня Siri может:
- искать информацию в Интернете по голосовому запросу и озвучивать её;
- управлять картами и навигатором;
- запускать некоторые приложения (которые используют специальный API SiriKit), например, включать плеер, узнавать погоду и т.п.;
- регулировать некоторые системные настройки (яркость экрана, включение/выключение WiFi, Bluetooth и т.п.);
- отправлять сообщения, надиктованные голосом;
- набирать телефонные номера и звонить по ним;
- работать с будильниками и заметками в Календаре.
С 2014 года Siri "научилась" понимать русский язык, а в новых iPhone 8 и X для неё появились отдельные энергосберегающие чипы, которые позволяют без существенного расхода заряда батареи постоянно мониторить микрофон и активировать помощника голосовой командой "Привет, Сири!". В более ранних устройствах для активации использовалось длительное нажатие кнопки "Домой". Кроме того, активировать голосового помощника можно дистанционно при помощи фирменной гарнитуры AirPods (двойное нажатие по наушнику) или нажатием специальной кнопки на руле автомобиля, поддерживающего технологию CarPlay:
На сегодняшний день Siri встроена во всю современную технику Apple, включая компьютеры и ноутбуки Mac, планшеты iPad (начиная с 3-го), "умные" часы Apple Watch и системы Apple TV. Она понимает более самых распространённых мировых 20 языков (в т.ч. русский) и может вполне сносно поддерживать диалог в виде "вопрос-ответ". Правда, отвечает на неэнциклопедические вопросы Siri часто невпопад, но разработчики постоянно совершенствуют алгоритмы.
По умолчанию Siri общается с пользователем женским голосом, но для большинства языков (в т.ч. русского) можно активировать и "мужскую" озвучку. Управлять Вашим устройством Сири может в оффлайн-режиме, однако, для поиска данных использует Интернет-подключение. Причём информацию голосовой помощник ищет не только в поисковых системах (среди которых, Google, Yahoo и Bing), но и на узкопрофильных сайтах (например, новости – The New York Times, достопримечательности – Yelp и т.д.).
Нельзя сказать, что Siri на сегодняшний день является наилучшим голосовым помощником, однако, неоспорим тот факт, что именно на виртуального ассистента Apple равняются почти все разработчики, которые создают подобные программы. Хотя, по утверждениям некоторых пользователей и специалистов, в последние годы Siri немного сдала позиции и даже начала "подсматривать" некоторые фишки у конкурентов (например, активация голосовой командой "Привет, Сири!" явно перекликается с известной "Окей, Гугл!")...
Google Now и Google Ассистент
Так уж повелось, что в современном мире постоянно что-то противопоставляется чему-то. Если брать во внимание девайсы Apple, то их антагонистами являются устройства на базе Android. И, естественно, операционная система от Google старается предлагать собственные альтернативы "яблочным" технологиям. Не стала исключением и разработка собственного голосового помощника, которых у Гугла имеется сразу несколько!
Глядя как Siri быстро "учится" искать заданные ей вопросы в Интернете, разработчики из Google решили внедрить в Android нечто похожее. И такой инструмент появился в Android 4.1 в середине 2012 года, получив название Google Now. Фактически он стал логическим продолжением развития приложения Google Поиск. Вызов его, как и в iPhone, осуществлялся длительным нажатием кнопки "Домой". На открывшемся экране пользователь мог нажать кнопку с изображением микрофона, задать свой вопрос и получить ответ.
В отличие от Siri, Google Now изначально был "привязан" к поиску Гугла и имел в своём арсенале так называемые информационные карточки. Фактически карточки были сродни тематическим базам данных, основанных на предпочтениях конкретного пользователя (история поиска в Интернете, предпочитаемые новости, частые маршруты и т.п.). Вначале карточек было всего 10 штук, а со временем их количество увеличилось до 36 (если не учитывать карточек сторонних приложений).
Настоящий бум использования Google Now случился в 2014 году, когда в приложении появилась возможность активации голосом – ставшая уже знаменитой фраза "OK, Google!". Пусть и на несколько месяцев, но она обогнала аналогичную фразу "Привет, Siri!" у Apple и стала очередной модной фишкой Android.
Правда, во многих телефонах голосовой помощник был по умолчанию отключён. Чтобы активировать функцию "Окей, Гугл" нужно было вызвать приложение Google, войти в его "Настройки" и в разделе "Голосовой поиск" включить переключатель "Распознавание "Окей, Google". При желании, можно задать постоянную активность функции или только при включении Google Now при помощи специальной галочки:
Основными возможностями Google Now можно назвать:
- поиск и озвучивание информации в Интернете;
- включение/выключение переключателей на выдвижной "шторке" (звук, WiFi, Bluetooth и т.п.);
- запуск установленных приложений и управление некоторыми из них (например, штатным YouTube или сторонними, вроде Viber);
- перевод фраз через Переводчик Google;
- управление Будильником и Календарём;
- совершение звонков и отправка SMS;
- прокладка маршрутов по картам Google.
Полный официальный список команд Google Now с примерами можно найти на этой странице.
Однако, ничто не стоит на месте. Видя, как развиваются конкуренты (в частности, компания Amazon со своим голосовым помощником Alexa, который вышел в формате "умной" колонки), Гугл решил, что Google Now пора отмежеваться от славы простого расширения для поиска и оформиться в виде более полноценного решения. Так в 2016 году появился Google Assistant:
Работает Гугл Ассистент на смартфонах и планшетах с Android 6.0 и выше по тем же принципам, что и Google Now (фактически он просто подменил его собой). Кроме того, новый голосовой помощник интегрирован в приложение для обмена мгновенными сообщениями Google Allo, "умные" часы Google Wear и WiFi-колонку Google Home.
Главным же новшеством Google Assistant стало появление двустороннего диалога с пользователем по принципу разговора с последними версиями Siri. Это отразилось и на интерфейсе, который стал напоминать чат. Существенно также расширился набор карточек (тем) и выполняемых функций ассистента. К уже имеющимся возможностям добавились:
- развлечения (анекдоты, гороскопы, тесты и мини-игры);
- связь с некоторыми онлайн-сервисами, не входящими в екосистему Google (кинопортал Ivi, справочник рецептов Едим дома и т.п.);
- удалённое управление некоторыми устройствами (Smart TV) и "умным" домом;
- конвертер величин и улучшенный переводчик;
- советы по здоровому способу жизни.
Полный список возможностей Google Ассистента смотрим здесь.
По функционалу Google Assistant можно назвать одним из передовых современных голосовых помощников. Однако, впечатление портит очень уж роботизированный голос, который в русскоязычной реализации довольно часто ставит ударения не там, где нужно.
Amazon Alexa
Многие русскоязычные пользователи слышали о забугорной компании Amazon, но в наших краях её сервисами практически никто не пользуется. А, между тем, в Америке и ряде других стран Амазон котируется наравне с тем же Гуглом, а по капитализации активов и вовсе стоит на втором месте после Apple! Корпорация предлагает своим пользователям практически полноценную экосистему онлайн-сервисов и гаджетов для работы с ними. Одним из таких девайсов является "умная" колонка Amazon Echo, в которой "живёт" голосовой помощник по имени Alexa:
Алекса появилась в 2014 году и изначально ориентировалась тоже на Сири. Но разработчики решили значительно улучшить её интерактивность. Для этого голосовой помощник снабдили улучшенными модулями TTS ("text-to-speech" – досл. "текст в голос"), продвинутой системой распознавания речи и самообучающимся искусственным интеллектом. Alexa, как современные версии Siri и Google Assistant, изначально могла вести с пользователем практически полноценный диалог и активировалась голосовой командой "Алекса ...".
Несмотря на то, что Amazon позиционирует Alexa, в первую очередь, как виртуального ассистента своей собственной платформы Echo и Fire, существуют и постоянно поддерживаются версии для Android, iOS и даже в виде расширения для голосового помощника Cortana от Microsoft (с августа 2018 года)! То есть, Вы свободно можете установить Алексу из магазина приложений и использовать практически на любом смартфоне или планшете.
Правда, пока у Алексы, в сравнении с остальными голосовыми помощниками, есть огромный минус. Она не поддерживает русский язык, поэтому пользоваться ею пока могут только те, кто владеет английским... Хотя, возможно, такая поддержка появится в скором времени, поскольку Amazon постоянно расширяет языковой диапазон своих продуктов.
В плане "живого" разговора Alexa в Америке считается одним из лучших виртуальных ассистентов. Но это не единственная её заслуга. Набор функциональных возможностей тоже весьма широк и может расширяться за счёт обновлений, а также установки дополнительных "скилов" (англ. "skill" – "умение"). Помимо стандартных для каждого голосового помощника функций поиска информации в Интернете Алекса может:
- проигрывать онлайн-радио;
- заказывать товары и услуги (правда, только на территории США и некоторых других стран);
- читать электронные книги вслух;
- управлять системой "умного" дома и некоторыми приложениями Android и iOS;
- взаимодействовать с некоторыми CRM.
В целом, Alexa – довольно хороший пример голосового помощника. Однако, она явно рассчитана на внутренний рынок США. Даже, если Алекса "научится" говорить и понимать по-русски, многие сервисы Amazon, на которые "завязан" функционал системы, будет у нас, к сожалению недоступен. Поэтому рассматривать Alexa в качестве персонального ассистента в своём телефоне, на мой взгляд, пока ещё рановато.
Яндекс Алиса
До этого мы рассматривали зарубежные версии голосовых помощников, однако и отечественным разработчикам есть чем удивить пользователя! Ведь в 2017 году крупнейший русскоязычный поисковик Яндекс выпустил своего собственного виртуального ассистента по имени Алиса:
Фактически Алису можно назвать нашим ответом Alexa. Изначально она "заточена" на максимальную интерактивность, решение повседневных вопросов и развлечения (поддерживает более десятка словесных игр и даже имеет собственный фантастический квест). Кроме того, за счёт использования для обучения нейросети, которая включала не только классику мировой литературы, но и живые примеры диалогов пользователей в чатах, Алиса имеет определённое чувство юмора и даже может слегка Вас потролить :)
В начале лета 2018 года Яндекс выпустил в продажу свой аналог "умных" колонок Google Home и Amazon Echo под названием Яндекс.Станция, где в качестве голосового помощника используется как раз Алиса. А с начала сентября стартуют продажи "умных" детских часов Elari KidPhone 3G, в которые интегрировали виртуального ассистента Яндекса благодаря специальному API Yandex.IO. Кроме того, Алиса доступна в виде отдельных приложений для Android и iOS, а также в виде голосового ассистента для Яндекс.Браузера под Windows и Яндекс.Навигатора:
Таким образом, на сегодняшний день Алиса является самым мультиплатформным решением в сфере голосовых помощников для отечественного пользователя.
Как и разработки других компаний, Алиса "привязана" к сервисам своих разработчиков, то есть, Яндекса. Это и Яндекс.Поиск, и Яндекс.Карты, и Яндекс.Музыка, и ещё десятки онлайн-ресурсов экосистемы крупнейшего русскоязычного поисковика. В принципе, сервисы весьма неплохи, поэтому ими вполне успешно можно пользоваться. Алиса также позволяет:
- проверять Вашу грамотность при помощи диктанта;
- решать математические примеры;
- вычислять курсы валют и ценных активов;
- открывать любые сайты и приложения на Вашем устройстве;
- подсказывать идеи подарков и тосты;
- петь стихи под музыку, сгенерированную нейросетями;
- вызывать такси (сервис Яндекс.Такси).
Кроме того, Алиса постоянно пополняет наборы своих функций за счёт добавления сторонними разработчиками новых "навыков". Самый полный и актуальный список возможных диалогов с их учётом можно найти на официальной страничке Яндекса.
Несмотря на все явные преимущества Алисы перед другими аналогами для русскоязычного пользователя, имеется у неё и один существенный недостаток. Активация голосом для неё доступна лишь в Яндекс.Станции (команда "Алиса, ..."). На смартфонах же и ноутбуках нужно предварительно запустить приложение Яндекс или Яндекс.Браузер. Хотя, многие обходят это ограничение, используя Siri или Google Assistant для запуска приложения голосом, а затем уже "общаются" с Алисой напрямую.
Microsoft Cortana
Как мы могли убедиться, для современных мобильных гаджетов существует весьма широкий выбор голосовых помощников. А как быть со стационарными настольными компьютерами? Для платформы MacOS существует отдельная реализация Siri, поэтому Microsoft решила тоже не отставать и выпустила в составе своей операционной системы Windows виртуального ассистента Cortana:
Создана Cortana была в 2014 году, а своё имя получила в честь виртуального помощника из популярной тогда компьютерной игры Halo. Кстати, озвучкой голосового ассистента занималась американская актриса Джен Тейлор, та же, что и озвучивала вышеупомянутую игру. Поэтому у геймеров может случиться дежавю :). Что интересно, Кортана доступна не только для Windows (начиная с 10) и Windows Phone (с 8.1), но и для платформ Android и iOS, а также Xbox One. С начала 2018 года компания Harman Kardon "поселила" Кортану также в своей "умной" колонке Invoke:
Cortana обладает неплохим искусственным интеллектом, который может получать доступ к истории поиска в браузере Edge и поисковике Bing, за счёт чего предугадывать запросы пользователя и искать данные в более персонализированной форме. Microsoft делают акцент на том, что подобный доступ Вы можете и не давать, а кроме того, гибко настраивать любые параметры конфиденциальности, чем не могут похвастаться ни Apple Siri, ни Google Assistant.
Так ли это, мы, к сожалению, оценить не можем, поскольку, как и Amazon Alexa, Cortana пока не поддерживает русский язык и очень сильно "привязана" к сервисам Microsoft, весь потенциал которых раскрывается лишь на территории США. В русскоязычной версии Windows Кортаны вообще нет, поэтому, если Вы захотите взглянуть на неё, Вам потребуется установить англоязычную Windows 10.
Возможности Cortana во многом перекликаются с возможностями Alexa с той лишь разницей, что привязка идёт не к сервисам Amazon, а к инфраструктуре Microsoft. Изначально Кортана содержит в себе ряд стандартных модулей для взаимодействия с поиском и устройством, однако, её искусственный интеллект настроен ан постоянное обучение и подстраивание под потребности пользователя. Поэтому с каждым днём активного использования этот голосовой помощник будет становиться всё "умнее" и "умнее".
Сводная таблица характеристик
Особенности | Siri | Google Assistant | Alexa | Алиса | Cortana |
---|---|---|---|---|---|
Год выпуска | 2010 | 2012 | 2014 | 2017 | 2014 |
Операционная система | iOS | Android | iOS | Android | iOS | Fire TV | Android | iOS | Windows | Windows | Android | iOS | Xbox One |
Русский язык | + | + | - | + | - |
API | SiriKit | Google Assistant SDK | Alexa Skills Kit | Alexa Voice Service | Yandex IO | Cortana Skills Kit | Cortana SDK |
"Умные" колонки | - | Google Home | Amazon Echo | Яндекс.Станция | Harman Kardon Invoke |
Режим диалога | + | +/- (не в Google Now) | + | + | + |
Взаимодействие с приложениями | +/- | +/- | Только запуск | Запуск и приложения Яндекс | Только запуск |
Выводы
На самом деле голосовых помощников существует гораздо больше. Практически каждая крупная компания-разработчик внедряет в свои девайсы и собственные реализации виртуальных помощников, как это делает, например, Samsung с ИИ Bixby. Однако, конкурировать с лидерами они пока не могут в полной мере. И в немалой степени это зависит от языковой поддержки. Поэтому русскоязычный рынок пока почти открыт, чем воспользовался Яндекс, создав практически идеального отечественного голосового помощника Алису.
Но не только Яндекс делает попытки освоить технологию виртуальных ассистентов у нас. Буквально на пятки поисковику наступает другой русскоговорящий голосовой помощник Дуся. Он интересен тем, что имеет в своём арсенале несколько способов вызова (не только голосом, но и жестами, встряхиванием и т.п.), а также позволяет пользователям создавать собственные скрипты для взаимодействия с установленными приложениями. Этого, кстати, не хватает большинству известных ассистентов! Правда, Дуся – платная (стоит порядка $6-7).
Другим бесплатным русскоязычным голосовым помощником можно назвать Лану. Правда, пока она ещё только появилась и многого ещё не умеет, но, есть надежда на дальнейшее развитие. Кстати, можете попробовать её онлайн-версию, которая не требует ничего скачивать.
В Америке голосовые помощники и их "умные" колонки за последние пару лет стали реально полезными изобретениями. Мы пока немного отстаём в плане использования виртуальных ассистентов. Однако, есть надежда на то, что Алиса от Яндекса в самое ближайшее время исправит ситуацию. А там, глядишь, и другие игроки рынка подтянутся. Так что, вполне может быть, что уже через пару лет Вы, лёжа на диване, сможете сказать "Окей, Вася/Петя/та же Алиса, закажи мне пиццу" и через каких-то минут 20–30 Вам привезут Ваш заказ :)
P.S. Разрешается свободно копировать и цитировать данную статью при условии указания открытой активной ссылки на источник и сохранения авторства Руслана Тертышного.