Анализ текстовых данных важен для получения знаний о клиентах, их контактах, запросах, предпочтениях. Прочитав книгу, пост, человек в состоянии понять смысл написанного, оценить, насколько интересным было чтиво. Но ему не под силу посчитать, сколько определенных слов встречается в полном тексте по заданной тематике. Однако это важно для продвижения товара и привлечения клиентов. В статье расскажем о технологии, которой это доступно.
Зачем нужна текстовая аналитика
В России тестовую аналитику стали применять не так давно. Ее данные позволяют узнать больше о пользователях соцсетей, определенных ресурсов. Анализ текстовой информации позволяет формировать базы потенциальных клиентов, находить контактные данные, продвигать сайт на высокие позиции в поисковой выдаче.
Банки делают анализ, чтобы собрать больше сведений о клиентах, особенно, о заемщиках. Выдавая кредит, они берут на себя определенные риски, поэтому используют все доступные способы для изучения личности клиента.
Текстовая аналитика нужна государственным структурам. Например, исследования цен на рынке недвижимости помогает составить планы строительства и развития инфраструктуры. Это позволяет максимизировать прибыль и удовлетворить потребности горожан. Данные для этой цели берутся из текстов, размещенных на порталах продажи недвижимости. По имеющимся там сведениям можно определить, какие районы пользуются спросом, сколько денег за подобные квартиры готовы отдать покупатели.
Коммерческие структуры имеют свой интерес в анализе текстовой информации. Они определяют, какие ключевые слова и фразы используются пользователями интернета для удовлетворения определенной потребности и собирают собранную базу данных для получения прибыли и привлечения клиентов.
Как происходит обработка текстовой информации
Все средства работы над текстовым контентом делятся на несколько групп в зависимости от выполняемых задач и функционала: редакторы, процессоры, специализированные и издательские программы.
Текстовые редакторы позволяют создавать простые тексты с минимальным набором функций для редактирования. Здесь можно сформировать, отредактировать, скорректировать и распечатать документ. Блокнот удобен для создания HTML-страниц, так как не использует форматирования символов для при написании .
Создавать более сложный контент со звуком, графикой, иными дополнительными функциями позволяют текстовые процессоры. Например, Microsoft Word. В нем можно не только писать текст с использованием буквенных и числовых символов. Программа позволяет вставлять и обрабатывать картинки, видео, прослушивать написанный текст и вводить его с голоса.
Adobe Pagemaker представляет собой издательскую настольную программу, предназначенную для верстки текста.
Как проводить анализ текста
Сложность автоматической обработки текста в том, что компьютер — машина, которая не может мыслить по-человечески. Анализ доступен только на основании заложенных в него кодов. При программировании учитывается, что тексты состоят не только из буквенных и числовых символов. Они содержат знаки препинания, специальную символику, эмодзи.
До некоторых пор считалось, что компьютеру не дано разобраться в аналитике текста также хорошо, как человеку. Однако такое утверждение неверно. Все зависит от качества заложенной в него программы.
Автоматическая обработка текста происходит при участии двух отраслей знаний: искусственного интеллекта и компьютерной науки. Программа анализирует текст по определенному алгоритму.
Предобработка текстовых данных
Особенность текстов, в отличие от математических вычислений, в том, что они содержат различные символы, грамматические, синтаксические и логические ошибки, знаки препинания. Перед началом работы с текстовыми данными нужно привести их к стандартной форме, иначе программа не сможет использовать заложенный в нее алгоритм.
Для компьютера любой текст — это наборы символов. Они бывают разной длины, но не все из них могут подвергнуться анализу, используя программу. Поэтому первоначальная задача при проведении анализа — исключить элементы, которые компьютер не в силах обработать. Для этого:
-
удаляются знаки препинания;
-
заглавные буквы принимаются к анализу наравне со строчными;
-
удаляются переносы, табуляция, стоп-слова.
К стоп-словам относятся наиболее часто употребляемые части речи, которые не несут смысловой нагрузки, а только засоряют текст и мешают проводить аналитику.
Токенизация
Чтобы программа смогла разобраться в сложном наборе символов, проводится токенизация, разделяющая сложные конструкции на отдельные слова, слоги, буквы, словосочетания. N-программа представляет собой последовательность из отдельных элементов определенной длины. Они могут состоять из одного, двух и трех слов.
Например, предложение «Наступила осень, листья окрасились в желтый цвет» можно разделить на N-программы:
-
/наступила/ /осень/ /листья/ /окрасились/ /в/ /желтый/ /цвет/
-
/наступила осень/ /осень листья/ /листья окрасились/ /окрасились в/ /в желтый/ /желтый цвет/
-
/наступила осень листья/ / осень листья окрасились/ /листья окрасились в/ /окрасились в желтый/ /в желтый цвет/.
Лемматизация
Этот процесс предназначен для сокращения количества токенов. Для этого подобные слова приводятся к исходному виду. Для примера возьмем словосочетания «где снять квартиру», «объявления о съеме квартиры». Эти словосочетания несут одинаковую смысловую нагрузку. При лемматизации учитывается эта особенность и слова приводятся к начальной форме, учитывая правила русского языка:
-
у прилагательных — именительный падеж, единственное число;
-
у существительного — именительный падеж, единственное число;
-
у глагола — инфинитив.
Исходя из этого, создается лемма, которой при анализе подчиняются иные формы слова. Например:
Лемма |
Слова, употребляемые в тексте |
Снять |
Сниму, снимают, снимали |
Квартира |
Квартиру, квартирой, квартире |
Не все слова программе удается преобразовать. Исключение составляют:
-
придуманные автором слова;
-
устаревшие обороты;
-
специализированные термины;
-
слова, написанные с ошибками.
Закон Ципфа и стоп-слова
Сложность может возникнуть не только со специальными терминами, словами с ошибками и иными, которые не заложены в словаре программы. Существует и другая проблема: частые, не имеющие смысловой нагрузки слова, по другому, стоп-слова.
В любом из этих случаев слова лучше удалить.
Закон Ципфа предусматривает такое правило, что частота слова обратно пропорциональна его рангу. Что это означает? Если учитывать, что ранг — это позиция, то наиболее часто употребляемые слова будут ниже по рангу, то есть по позиции. К ним относятся: местоимения, числительные, предлоги, союзы.
С редкими словами дело обстоит иначе: нужно обращать внимание на частоту их употребления и оценивать целесообразность. В любом из вариантов нужно проводить анализ, чтобы понять, какие слова не несут смысловой информации и будут мешать анализу.
Речевая аналитика MANGO
MANGO OFF предлагает сервис перевода речи в текст. Он позволяет повысить эффективность продаж, отслеживать разговоры сотрудников для повышения качества обслуживания.
Как это работает?
-
Разговор сотрудников сохраняется в виде текста. В нем видны запросы клиентов, имеется возможность отобрать звонки по требуемым фразам.
-
ИИ распознает и систематизирует разговоры по категориям, ключевым словам.
-
По результатам переговоров формируется отчет, в котором видны показатели: тематика разговора, как общение повлияло на оценку и на сколько баллов.
Речевая аналитика MANGO OFFICE предоставляет бесплатно 32 словаря и дает возможность оценить качество разговора по 12 показателям.
Выводы о текстовой аналитике
-
Текстовый контент позволяет привлекать клиентов, продавать товары и услуги. От его качества зависят позиции в поисковой выдаче.
-
Для создания и анализа текста существуют специальные программы, позволяющие оценить качество материала.
-
Анализ проводится на основе заложенных в программу алгоритмов и включает в себя несколько этапов. Изначально текст проходит предобработку, затем токенизируется, проходит лемматизацию. Для упрощения анализа убираются стоп-слова. На выходе можно увидеть ошибки и оценить качество текста по нескольким показателям.
-
Программы речевой аналитики позволяют получить готовый анализ всех звонков без прослушивания и повысить уровень сервиса.