29 Июля 2013 / Интервью

Игорь Ашманов: «Речь и текст станут основным каналом общения с компьютерами и бытовыми устройствами» 

Елена Краузова Автор / Елена Краузова
Елена Краузова - постоянный автор Firrma.
Игорь Ашманов: «Речь и текст станут основным каналом общения с компьютерами и бытовыми устройствами»

«Наносемантика» делает инфов – виртуальных собеседников, которые помогают справиться сайтам справиться с наплывом посетителей, отвечая тем на волнующие их вопросы (а, если нужно, могут и просто с ними поболтать). Среди клиентов компании, например, HeadHunter, журнал Maxim и Tinkoff Credit Systems. О том, какие возможности перед стартапами открывает рынок технологий искусственного интеллекта, мы поговорили с основателем и совладельцем «Наносемантики» Игорем Ашмановым.

Расскажите, как появилась «Наносемантика»?

В прикладной лингвистике, пожалуй, есть две технологические «вершины», покорение которых могло бы считаться абсолютным выражением возможностей искусственного интеллекта: это машинный перевод и диалог на естественном языке. Учитывая то, что заниматься прикладной лингвистикой я начал в 1987 году, о создании виртуального собеседника я стал думать давно. Первую попытку воплотить подобную идею я предпринял еще в годы своей работы в Отделе искусственного интеллекта Вычислительного Центра Академии Наук СССР.

Тогда нашей команде разработчиков под руководством Олега Григорьева стало ясно, что без лингвистической платформы затея не удастся. Так что мы этот проект отложили, переключились на проверку правописания и в рамках компании «Информатик» в 1989 году сделали проверщик правописания, который впоследствии, в 1994 году, продали Microsoft для встройки в Офис.

К работе над виртуальным собеседником я вернулся в 2001 году, когда ушел из «Рамблера» и забрал с собой из компании многих талантливых программистов, с которыми работал уже очень долго. Тогда я проигнорировал предложения от многих интернет-компаний прийти к ним в качестве топ-менеджера «подлатать» одно из направлений и решил открыть свой бизнес, компанию «Ашманов и партнеры». Но на первых порах проектов на всех не хватало. Получилось, что мне нужно было удержать в команде сильных, проверенных разработчиков, а занять их было в первые 2-3 месяца нечем. Вот тогда я и предложил им вплотную поработать с диалогом с компьютером на естественном языке.

Тогда, конечно, мы все помнили о легендарной «Элизе» (ELIZA) – виртуальном собеседнике, созданном Джозефом Вейценбаумом в 1960-х и предназначенном для проведения «сеансов» психотерапевтом. Элиза просто переформулировала сказанное собеседником и превращала его реплику в вопрос к нему же, благо, для английского языка это было сделать относительно просто. Джозефа Вейценбаума поразил эффект, вызванный его изобретением: люди, общаясь с «Элизой», выкладывали виртуальному психотерапевту все самое сокровенное, принимали «матрицу» диалога, как с живым человеком. Американская пресса тогда подняла ужасный шум: наконец-то создан ИИ, вот США – страна стрессов и неврастеников, и если бы у каждого жителя Штатов был бы свой психотерапевт, технологии искусственного интеллекта спасли бы целую нацию от массовых неврозов…

Тогда певцами ИИ (вроде Марвина Минского и Рея Курцвайля) настойчиво продвигался миф о безграничности возможностей машин, о том, что в ближайшем будущем компьютеры смогут делать за человека буквально все – лечить людей, судить в судах, заниматься политикой, управлять обществом и т.д. Это сподвигло Джозефа Вейценбаума написать известнейшую книгу «Возможности вычислительных машин и человеческий разум. От суждений к вычислениям», в которой он попробовал побороть подобные предрассудки и разоблачал шарлатанов, объясняя, что дело не в технологии, а в ответственности: не в том, может ли машина судить людей, например, а в том, что машина не должна судить людей.

С тех пор «ботов» или «чат-ботов» создавали многие программисты-одиночки и программистские компании, с разными целями, в том числе для форумов и чатов. В 2001 году был довольно популярен «Элис» (A.L.I.C.E.), созданный американским профессором Ричардом Уоллесом (и названный, очевидно, в честь Элизы Вейценбаума).

A.L.I.C.E. была open-source-проектом и написана на специальном диалекте XML – языке диалогов AIML (Artificial Intelligence Markup Language). Поскольку A.L.I.C.E. находился в открытом доступе, я попросил ребят-лингвистов из своей команды попытаться построить своих виртуальных собеседников на нём.

Мы не стали использовать программное обеспечение «Алисы», разработали наскоро своё. Кроме того, нам крайне не понравился язык AIML, потому что он был неочевиден, сложен, перегружен синтаксисом тегов XML и служил источником трудностей для лингвистов и генератором трудноуловимых ошибок. Мы сделали некий свой более простой и прозрачный диалект с трансляцией в AIML, а потом просто придумали новый язык диалогов без наследия XML и AIML.

В итоге меньше чем за два месяца наши разработчики сделали несколько виртуальных собеседников – в том числе малообразованную, но активную девушку лет 16, которая могла бойко поддерживать разговор, в основном на темы в рамках повседневного общения. Эффект «очеловечивания» программы сработал и здесь – люди легко принимали правила игры и общались с нашей героиней, как с живой.

Но мы были вынуждены опять отложить работу в этом направлении. Мы начали разработку первого в России фильтра почтового спама, и проект втянул в себя все ресурсы лингвистов и программистов, бывшие у нас в распоряжении.

Однако, сам феномен общения с роботом – огромная готовность пользователей очеловечивать виртуального собеседника – настолько мне запомнился, что в 2004 году я снова вернулся к теме виртуальных собеседников. Тогда и была создана компания «Наносемантика», инвестором которой, кроме меня, через несколько лет стала моя жена Наталья Касперская.

Я привлёк в проект его будущего директора и совладельца Александра Клячина, назначил двух программистов и трёх лингвистов из «Ашманов и партнеры», и в течение первых трёх лет никому не известная компания занималась разработкой лингвистической платформы для поддержания диалога. Первый клиентский виртуальный собеседник («инф») был продан только в 2008 году. Мы были первыми, кто пытался этим заниматься, рынка виртуальных собеседников не существовало, и было крайне сложно объяснять людям и компаниям, как можно использовать в бизнесе возможность «разговаривать» с компьютером. Нам пришлось самостоятельно формировать рынок. Сейчас у нас есть отлаженный процесс работы с заказчиками в сегменте B2B, а вот на B2C-направлении, несмотря на 2 миллиона инфов, созданных нашими пользователями, мы пока не нашли «волшебной палочки» для монетизации.

То есть, сейчас команда «Наносемантики» сконцентрирована на создании корпоративных «инфов»?

Да. Инф может устанавливаться на сайт заказчика для разных целей: в качестве представителя технической поддержки, как консультант по услугам компании и как промоутер, продвигающий конкретный продукт. В любом случае инф не призван полностью заменить сотрудников, он только помощник. Инф берет на себя часть нагрузки, ложившейся раньше на плечи живых людей, и отвечает на наиболее массовые вопросы от клиентов компании.

Поэтому наши заказчики – фирмы с большим количеством клиентов, которые постоянно получают большой объем обращений от их пользователей – банки, интернет-магазины, мобильные операторы, ритейлеры. При этом мы делаем не только инфов – виртуализированных «человечков», но и разные другие модификации этой идеи, наподобие интерактивных панелей с функциями вопрос-ответ или «говорящих» баннеров.

У каждой такой системы – довольно крутая кривая обучения. В своей первоначальной версии инф, которого мы ставим на сайт заказчика, довольно стандартный, хотя и «заточенный» под бизнес заказчика, но наши разработчики постоянно работают с логами запросов и занимаются наращиванием базы знаний инфа – и через 1-2 месяца инф выходит на боевой режим и может взять на себя до 25-40% пользовательских обращений. Для многих пользователей ответов инфа в принципе вполне достаточно. Для некоторых – нужна более детальная информация, тогда инф перенаправляет клиента в службу поддержки. У нас, кстати, есть режим (правда, пока мы его не продаем), когда продавец может в реальном времени следить за диалогом клиента и инфа и вовремя перехватывать беседу. Таким образом, со стороны клиента требуется очень четко отладить процессы работы всех служб поддержки, чтобы эффективность использования инфа была максимальной.

А для малого и среднего бизнеса инфы не подходят?

Наши клиенты пока именно крупные компании, потому что инф – довольно дорогое удовольствие. В среднем инф обходится клиенту от 1,5 до 3 млн. рублей в год. Могу сказать, что среди корпораций инфов запускают компании-пионеры в своих областях, которые пробуют всё новое и ищут способы экономии затрат и генерации новых лидов. Но вообще-то, очень скоро мы также запустим предложение для малого и среднего бизнеса.

А какие сложности были с B2C-направлением?

В 2008 году мы запустили проект iii.ru («А-я-яй») – сайт, на котором любой человек мог «вырастить» своего собственного инфа. За все это время было создано более 2 млн. виртуальных собеседников; количество пользователей, которым это оказалось интересно, перевалило за миллион. Но мы так и не научились монетизировать эту аудиторию. Думаю, что в ближайшее время нам предстоит интегрировать в iii.ru какие-то игровые моменты: достижения, необходимость для инфов бороться за какие-то виртуальные ресурсы.

Проблема во многом была связана с тем, что основную аудиторию iii.ru составляют подростки. Можно с уверенностью сказать, что в Москве нет ни одного ребёнка, который бы имел доступ к интернету и не попробовал сделать инфа. Только вот как нам использовать эту популярность? Рекламная модель здесь не очень работает. Ну, а беззастенчиво «разводить» их на деньги инструментами типа «отправь SMS на номер» и ему подобными нам не хочется.

Поэтому пока мы думаем над бизнес-моделью для B2C-части, идет дальнейшая «шлифовка» технологий. Все доходы от потока заказов в B2B мы реинвестируем в разработку технологии. Собственно, поэтому компания до сих пор не прошла точку безубыточности: как только проект мог бы выйти на самоокупаемость, мы «нагружали» коллектив разработчиков новой технологической разработкой.

Скажем, и iii.ru изначально задумывался как промо для самой идеи общения с компьютером на ЕЯ, а не как способ заработать денег.

Сейчас, например, компания работает над созданием инфа, способного общаться голосом – для бытового робота, которого делает другой мой стартап. Я думаю, что если бы «Наносемантика» работала только как конвейер по производству корпоративных инфов, она бы уже давно генерировала заметную прибыль.

Каков был оборот компании по итогам прошлых лет?

Цифр мы не раскрываем, но с 2010 года у нас стабильно рост на 50-100% из года в год. В год мы делаем до пятнадцати-двадцати заказных проектов, ближайший план – выйти на показатели в 40-50 проектов в год. В общем и целом, мы с женой потратили на «Наносемантику» больше $2 млн.

Какие проблемы, связанные с диалогом на естественном языке, вам удалось решить? Насколько сложно устроены инфы с технологической точки зрения?

Есть несколько трудностей, связанных с созданием виртуальных собеседников. Во-первых, очень непросто наладить поиск фразы, выданной пользователей, по базе слов и выражений, которыми располагает инф. Для диалога на ЕЯ нужна очень специфическая семантическая поисковая машина по обобщённым шаблонам реплик, которая умеет найти наиболее близкий шаблон, даже если часть слов в запросе пропущены или заменены на другие слова. Само собой, в этой поисковой машине должна быть встроена машинная морфология (обработка словоизменения), зачатки синтаксического разбора, словари синонимов и прочее.

Машина диалога должна осуществлять поиск подходящей реплики, «помня» контекст предыдущей беседы.

Но главная проблема – покрытие всего разнообразия входных реплик, потому что человек может спросить что угодно и в любой форме.

Дело в том, что у любых поисковых машин есть две характеристики: полнота и точность. Для обычных поисковиков необходима именно точность: важно, чтобы был верно выстроен список в первой десятке результатов, а полнота – то есть то, сколько релевантных документов поисковик «вытащил» из интернета – никого не волнует. Вы ведь все равно не полезете на двухтысячную страницу «Яндекса» или не решите пролистать все полмиллиона выданных ссылок, да вам никто и не даст заглянуть так далеко.

В случае же с семантическим поиском все совсем наоборот. Точность у инфа всегда отличная: если распознать реплику получилось, ответ будет выдан точно. Но вот гарантировать полноту – то есть распознавание большой доли входных реплик – для такого поисковика сложнее: человек, свободно владеющий языком, может придумать любые входные реплики, разнообразие их так велико, что «покрыть» всех их слишком сложно.

Для того чтобы распознавание входных реплик давало хорошее покрытие в реальной обстановке, мы разработали довольно мощный и гибкий компилируемый язык написания диалогов, в котором есть ответвления, условные операторы, лингвистические кванторы и т.д.

При этом наш язык диалогов нагляден и прост, его довольно просто использовать в работе, ему легко научить лингвистов, там нет сложного синтаксиса или жёстких правил оформления, вызывающих излишние ошибки компиляции и распознавания реплик.

Я сам написал первую версию этого языка ещё в 2001 году, а команда «Наносемантики» его активно развивает уже много лет. Мы считаем, что наш язык гораздо мощнее, чем AIML , на котором была написана американская A.L.I.C.E., которая когда-то послужила для нас тестовым примером.

Как «Наносемантика» наращивает базу информации, которой располагает инф?

В словарном запасе инфа есть несколько уровней.

Во-первых, у инфа есть стандартная «подложка» для обработки стандартных вопросов и коммуникативных ситуаций. Грубо говоря, если вы спрашиваете виртуального помощника о Путине – инф не должен поддерживать разговор, он должен корректно сказать вам, что о политике он не разговаривает и предложить вернуться к теме диалога. Но ведь для того, чтобы инф понял, что задан вопрос о политике, он должен располагать блоком распознавания «политической» тематики. А если вы спрашиваете инфа о том, сколько будет дважды два, он не должен ответить вам «Я не понял вопроса», а должен сказать нечто вроде «Вообще-то, дважды два – четыре, но я же не калькулятор. Давайте поговорим о кредитах нашего банка».

Во-вторых, после «общечеловеческой подложки», которая обеспечит выдачу инфом не точных, но разумных ответов, мы формируем вторую стандартную «подложку» – базу знаний, общую по своей структуре входных вопросом для всех компаний этой отрасли. В этот блок входят ответы на вопросы об адресе компании, ее учредителях, контактная информация – обо всем этом пользователи спрашивают разные фирмы с помощью примерно одного и того же набора фраз.

Наконец, в-третьих, ядро базы слов и выражений, которыми обладает инф, составляет конкретные микродиалоги, описывающие продукты и услуги компании и те темы, которых, по мнению заказчика, касаются люди, обращаясь в службу клиентской поддержки.

Затем, в-четвёртых, инфа устанавливают на сайт, и он начинает работать с реальным потоком вопросов от пользователей – на этом этапе мы продолжаем совершенствовать знания и коммуникативные навыки инфа.

Удивительно, но большинство компаний абсолютно не представляют то, о чем и, главное, как их клиенты задают вопросы консультантам. Поэтому, как правило, поток вопросов от пользователей сайта компании оказывается совсем не таким, как мы с заказчиком изначально предполагали.

Кстати, очень похожий разрыв с представлениями компаний о себе и своём бизнесе и представлениями о них у пользователей мы наблюдаем с продвижением в поисковиках: продавцы продукта пишут на своих сайтах информацию о своих товарах и услугах совсем не тем языком, каким о них вбивают запрос в строку поиска реальные люди.

Собственно, этот разрыв – между заданным вопросом и ответом на него на профессиональном языке на сайте компании – и «заклеивают» обычно оптимизаторы. Вот простой пример: дилерам компании Hyundai запрещено использовать в речи исковерканные варианты японского названия этого автобренда наподобие «хундай» или «хиндай» – тем более, использовать их в тексте на сайте. А ведь люди у поисковиков спрашивают о данной марке как раз такими «нелегальными» словами. А правильное название «хёнде» по своей доброй воле не использует почти никто.

То же самое получается и с нашими виртуальными собеседниками: мы наращиваем базу, исходя из представлений заказчика о возможных вопросах к нему от клиентов, – а затем оказывается, что реальные пользователи инфа спрашивают совершенно о другом.

Помимо этого, мы должны учитывать, что корпоративный инф в течение своей жизни будет встречаться с «эпидемиями» новых вопросов, спровоцированных каким-либо событием. В одних случаях такие «волны» запланированы. Например, сотовый оператор вводит новый тарифный план – для таких ситуаций инф подходит просто идеально: для компании ведь очень накладно буквально на две недели расширить службу техподдержки с десяти человек до тридцати, а спустя полмесяца уволить двадцать сотрудников, только что закончив их обучение. Но в других случаях – если компания-заказчик как-то «накосячит» в своей работе – поток реплик к инфу нельзя спрогнозировать. Тут мы должны реагировать быстро.

Какие планы у «Наносемантики» на ближайшее время?

Как я уже сказал, мы постараемся монетизировать B2C-направление. Думаю, вскоре мы выпустим новую версию iii.ru – c улучшенным дизайном, с «цепляющей» пользователя игровой механикой.

Другое направление работы – это вывод компании на рынок устройств. Думаю, в ближайшем будущем мы будем пытаться сделать воплощение инфов в «железе». Для этого мы сейчас пытаемся найти на рынке качественные и недорогие технологии распознавания речи, с которыми можно тесно интегрировать нашу технологию, потому что разрабатывать подобные алгоритмы самим для нас пока слишком долгий и дорогой путь.

Сейчас мы думаем о том, чтобы двигаться на Восток, на рынки азиатских стран. Для нас не является преградой необходимость работать со сложными азиатскими языками – мы уже разработали семантические поисковые машины для десятков языков, в том числе у нас есть инфы для китайского и вьетнамского языков. На основе данной платформы мы легко можем масштабировать B2B-модель «Наносемантики» и расширяться географически. Также в планах – начать создавать мобильные версии инфов.

На ваш взгляд, насколько активно сейчас в России развиваются технологии в области искусственного интеллекта и семантических сетей?

Я уверен, что это действительно перспективное направление, и мне известно довольно много российских, украинских и белорусских стартапов, которые создают интересные разработки в сфере прикладной лингвистики.

Мировые лидеры среди поисковых систем уже давно начали работать над тем, чтобы их машины были способны ответить на поставленный пользователем вопрос, а не просто «прочесывать» сайты в поисках фраз, совпадающих со словами запроса. Это отличный шанс для небольших команд: если вы сможете улучшить алгоритмы работы поисковиков со сложными, логически обоснованными запросами, или придумать новый пользовательский интерфейс для семантического поиска – вы сможете продать свой продукт одному из «гигантов».

Довольно большая проблема естественно-языкового диалога с пользователем есть и в электронной коммерции – в интернет-магазине некого спросить о качествах товара, отсутствующих в карточке описания, или попросить сравнить две модели между собой.

Я вообще считаю, что в ближайшем будущем речь и текст станут основным каналом общения с компьютерами и бытовыми устройствами, часто минуя любые экраны, только «по воздуху». Системы распознавания речи уже в ближайшие 2-3 года сделают это повседневной реальностью.

А для понимания сказанного компьютеру, телевизору или микроволновке во всех этих устройствах должны быть «текстовые мозги», которые понимают естественную речь, преобразованную в текст. Вот их-то мы и делаем. 

А также: