19 Октября 2016 / Статьи

Текстовая аналитика: с чего начать? 

Автор: Елена Луценко
Текстовая аналитика: с чего начать?
Руководитель по коммуникациям EurekaEngine.ru Елена Луценко рассказывает о секретные методах текстовой аналитики.

По прогнозам Deloitte, когнитивные технологии (текстовой анализ естественного языка, распознавание речи, нейросети и др.) будут использовать 80 из топ-100 крупнейших мировых разработчиков уже в 2016 году, что на 25% больше по сравнению с 2015 годом. 
Что делать, если ваша компания не входит в топ-100? И что делать, если вы ничего не понимаете про технологии текстовой аналитики и Big Data? Коммуникации на рынке Big Data пока что больше похожи на огромный секрет, где нужно быть агентом 007, чтобы разобраться, кто и какую роль играет. Почти все игроки рынка говорят про интеллектуальные системы анализа данных, удобную визуализацию, облачные решения, машинное обучение, определение языка и т.д. 

И в чем же различия? Какие вопросы вы должны задать прежде всего себе, если собираетесь внедрять текстовую аналитику Big Data и если у вас нет технического образования? Как именно можно применять данные технологии для своего бизнеса? Давайте разберемся. 

Какие задачи решает текстовая аналитика и причем тут Big Data

Понятие «текстовая аналитика» не столь популярно в России, как словосочетание «Big Data». Однако именно в формате неструктурированного текста представлены около 80% всей накопленной информации, согласно отчету International Data Corporation. Что с ней делать и как?

Дмитрий Торшин, директор по инвестициям АйТи и вице-президент Aplana, уверен: «Использование современных технологий на базе текстовой аналитики является одной из важнейших задач, которые должны поставить себе руководители развивающихся компаний в России. Это уже сделали их коллеги из развитых стран, и все мы уже используем это, даже не всегда осознавая. Уже создан виртуальный секретарь x.ai, который согласует встречи (являясь программой, но его ничего не выдает, кроме адреса почты – он великолепно отвечает на вопросы и предложения людей в переписке). Чат App in the Air в Facebook Messenger дает мне возможность на простом языке узнать, что можно брать с собой в самолет в той или иной стране, а что нельзя, и найти нужный мне рейс. А последняя версия операционной системы для настольных компьютеров от Apple – macOS, – которая вышла буквально на днях, содержит Siri и поиск, который позволяет попросить компьютер найти «документы, которые мне прислал Петя на прошлой неделе». Люди мгновенно привыкают к этому, и если завтра ваш бизнес не будет способен так же общаться на человеческом языке с клиентом, то он будет серьезно потеснен с конкурентами»

Тем не менее, наиболее распространенные кейсы применимости текстовой аналитики в России можно найти на рекламном рынке, в банковской индустрии, а также в онлайн-ритейле (где этот тренд только зарождается, но выгоды от использования уже очевидны).

Какие задачи может решить текстовая аналитика неструктурированных данных в рекламе и клиентском сервисе:

- Составление рейтингов лояльности к брендам,
- Увеличение CTR через повышение эффективности нативной рекламы (соответствие контента размещаемой рекламе),
- Анализ контента (тегирование и классификация) для создания следующего подпродукта или корректировки текущего,
- Внедрение технологий текстового анализа в чаты для управления сообществами,
- Автоматическое выявление разного рода сущностей и частотный анализ слов,
- Контроль тональности упоминаний о бренде как показатель здоровья компании,
- Обнаружение трендов в момент их зарождения,
- Повышение эффективности программ лояльности (за счет мониторинга не только публичного пространства, но и аналитики текстовых данных чатов, сообщений call-центров, email-сообщений).

Банки, пожалуй, являются лидером в применении аналитики неструктурированной Big Data. Говорит Сергей Добриднюк, директор по исследованиям и инновациям «Диасофт Системы», активно изучающих банковскую сферу: «Мое мнение, что попытка все структурировать – тупиковый путь. До 80% ежедневно «оцифруемой» человечеством  информации – содержится в неструктурированном виде. И причиной тут – сложность, как данных, так и систем классификаторов. Например, чтобы классифицировать товарные чеки для PFM систем – потребуется создать классификатор с не менее чем 1,5 млн. товарных позиций SKU. Это нереально большой словарь, в котором легко ошибиться: у великого Пушкина был словарный запас около 30 тысяч слов. И с этой сложностью ИТ успешно борется – есть сотни систем управления данных (СУБД) в технологиях NoSQL – для которых неструктурированные данных – их родная стихия. Сильно совершенствуются алгоритмы – например многослойные нейронные сети, байесовские нейронные сети находят связи и обрабатывают тексты, речь, изображения в тысячи раз быстрее, чем 10 лет назад. Появились очень качественные и открытые библиотеки свободного ПО – которые делают эти технологии доступными для всех желающих. Прорывная технология сегодня – машинное обучение (Machine Learning), – когда причинно-следственные связи устанавливаются компьютером на основе статанализа, причем даже человек не может объяснить логику – предпочитая считать его непознаваемым «черным ящиком». Все это важно для предложения клиенту комплексных услуг на базе поведенческих моделей, собранного клиентского опыта (CX). И качество предложения непрерывно повышается за счет непрерывного наблюдения за клиентом, за всеми его «цифровыми следами» в структурированном и неструктурированном виде. Интрига состоит еще и в том, что это могут делать не только банки – а еще и ритейлеры, телеком-операторы, поставщики услуг и товаров, уже знающие клиента и предлагающие ему финансовые сервисы не хуже «среднего банка». Поэтому  классический банкинг находится сегодня в зоне глубокой турбулентности и переосмысливании своей деятельности».

А в уже «настоящем» аналитики неструктурированных данных не сомневается и директор отделения IBS Data Lab Сергей Заблодский: «Вопрос применимости BigData-аналитики в бизнес-решениях сегодня уже не стоит. Скорее есть задача делать это эффективно. А за примерами эффективных решений не нужно далеко ходить – посмотрите на Uber, Airbnb, Netflix, Walmart. И это только те имена, которые на слуху. Все они активно и успешно используют BigData-аналитику в своих бизнес-решениях, а у некоторых весь бизнес основан на BigData-аналитике. Так, например, вероятность коммерческого успеха сериалов, выпускаемых Netflix, достигает 70%, в то время как в среднем по рынку такая вероятность составляет всего 35%».

С чего начать и что важно знать для внедрения текстовой аналитики

Наиболее известными компаниями в сфере Big Data и лингвистики – в основном благодаря громким кейсам и наличию визуализации (интерфейса) – стали компании мониторинга социальных медиа и СМИ (Brand Analytics, Brandwatch, Radian 6, Крибрум и др.). На этом однако индустрия текстовой аналитики не ограничивается, а даже наоборот – становится крайне сложно разобраться в отличиях предлагаемых решений. 

В первую очередь при выборе решения текстовой аналитики следует подумать самостоятельно над тем, какие характеристики важны именно вам (при условии, что вы уже решили, что будете использовать технологии текстового анализа для решения конкретной бизнес-задачи). 

Ответьте на вопросы ниже:

1. У вас действительно «большие данные» или нет? Среди них действительно много неструктурированных данных? 
2. Что для вас важнее: глубина анализа или скорость? 
3. Тексты на каких языках вам нужно анализировать? У каждого решения на рынке существуют свои технические особенности текстового анализа и определения языков. Все международные корпоративные решения по машинному обучению отлично работают с английским языком, однако в случае с русским возникает много проблем. Богатый и могучий, так сказать!
4. Готовы ли у вас данные в экспортируемом виде?
5. Вообще, вы хотите технологию или готовый узкоспециализированный продукт? 
6. Вам нужен сбор данных или только текстовой анализ больших данных, или и то, и другое?  
7. Для вас принципиально решение во внутренний контур или допустимо облачное решение через REST API? 
8. Есть ли у вас ресурсы на визуализацию проанализированных данных? 
9. Какая из основных областей текстовой аналитики вам нужна: поиск (методы информационного поиска) или описательная/прогнозная аналитика (интеллектуальный анализ текста и определение тональности)?
10. Вам необходимо извлекать коммерчески полезные знания из текста в режиме онлайн?
11. Есть ли у вас профессионалы в команде, способные правильно интерпретировать результат анализа, внедрить технологию, создать продукт или вы ожидаете этого от поставщика технологии?
12. И наконец, какой бюджет вы готовы инвестировать в подобные решения?  Необходимо понимать, что максимальную полезность от анализа больших данных можно получить при долгосрочном анализе (то есть оценивать результаты анализа во времени), а это уже подписная модель, а не разовый проект.  

У кого какие методы? 

Итак, вы более-менее смогли ответить на перечисленные выше вопросы. Следующий шаг – выбор партнера. Решения анализа неструктурированной информации условно можно разделить на 3 вида:

- Готовые продукты, построенные на технологиях текстовой аналитики: не для массовой аудитории, а поэтому достаточно дорогостоящие и «заточенные» под конкретный сегмент В2В-клиентов.
- Точечные решения-продукты на стыке текстовой аналитики и big data для сегмента «масс-маркет», если так можно выразиться в В2В: более простые в имплементации, рассчитаны на разные сегменты В2В.  
- Модульные технологии текстовой аналитики: пожалуй, самые гибкие в имплементации, подходят под широкий спектр задач – такой кубик в «лего» конструкторе текстовой аналитики для бизнеса.

К первой группе относятся решения действительно из сферы искусственного интеллекта, которые могут выполнять не только задачи текстовой аналитики, но и в целом, предоставлять когнитивные сервисы и их микс. Например, IBM Watson, официально стартовавший в 2007 году, оперирует big data независимо от вида и формата данных, обладает возможностью самообучения, подходит для быстрого поиска ответов на вопросы. На своем сайте предосталяют демо за подписку. 

Под вторую категорию попадают как стартапы, так и очень точечные продукты известных корпораций. Например, летом 2016 ABBYY анонсировали запуск Findo – поисковой ассистент по почтовым сообщениям, файлам и документам в облаках. А в 2014 году в ABBYY запустили Compreno – интеллектуальный поиск и выявление «сущности» в текстах. Из некорпоративных решений на рынке присутствуют инновационные компании/стартапы типа Textocat (предлагающие также умный поиск) и продукт «чат-бот». Также компания SAS выпустила два основных решения по интеллектуальному анализу текста и анализу тональности: SAS Text Miner и SAS Sentiment Analysis.
 
Среди модульных технологий активно на рынке присутствуют такие игроки, как Yandex Data Factory и EurekaEngine. Обе помогают компаниям извлекать коммерческую выгоду из накопленных данных: создавать конечные сервисы в существующих бизнес-процессах компаний вместо внедрения ПО и визуализаций. YDF применяют корпоративный опыт и технологии машинного обучения, EurekaEngine – высокоскоростную текстовую аналитику, особенно для русскоязычного пространства, ведь компания имеет изначально российские корни (которую, кстати, применяет один из лидеров на рынке сервисов по мониторингу соцмедиа и СМИ – Brand Analytics, занявший 1 место по качеству среди систем мониторинга соцмедиа в рейтинге TECH INDEX 2016 от AdIndex). 

Российские «рекламщики», особенно системы DMP и аудиторы рекламы, также имеют свои разработки в сфере анализа текстов, однако применяют в основном для своих же внутренних задач: сегментирование, более точечный таргетинг, семантические сравнения аудиторий (например, аудиторий мобильных приложений) и т.д. Как известно, дьявол в деталях: практически все имеют проблемы с точностью анализа и невозможностью отделить рекламный контент текстового блока от самого текста статьи в СМИ, а также дальнейшего вывода продукта. 

Вместо выводов

А что думает клиент про полезность текстовой аналитики в решении бизнес-задач? Иван Третьяков, управляющий партнёр Ассоциации А.Р.З.А.М.А.С. и сервиса POSonline.ru:

«В эпоху роста потребления, а также спроса на качество услуг, бизнес (в частности банковский и ритейл-сегмент) стали более глубоко смотреть в корень того, как быть ближе к клиенту и сделать его к себе более лояльным. Инструменты Big Data – аналитики и в частности анализа текстовых массивов уже сегодня показывают потрясающие результаты: можно подкорректировать свой сервис основываясь на отзывах людей в СМИ, чатах, форумах; можно предложить людям интересные акции/скидки, изучив их факторы спроса и интереса к конкретным группам товаров/брендам; можно расширить собственный перечень предлагаемых услуг или снизить ставку по кредиту изучив поведение своих клиентов в интернет-пространстве.

Текстовая аналитика может быть применима не только для бизнеса, сосредоточенного в интернет-пространстве, но и для офлайн-игроков, например: проанализировав поведение/отзывы пользователей в интернете по определённым товарам/услугам и вооружившись геолокационными сервисами работы с потенциальной аудиторией – можно им предлагать интересные товары/услуги/решения уже в офлайн пространстве. Например: курсы, путешествия, мастер-классы и т.д. И благодаря наличию уже готовых SAAS-сервисов по текстовой аналитике бизнес получит сильный инструмент для роста своей прибыли и увеличения довольных клиентов».
А также: