Big Data

29 784
Оглавление

Что такое Big Data

Big Data — это бесконечные объемы оцифрованной информации. В 2008 году редактор научного журнала Nature Клиффорд Линч рассказал о потоке «больших данных». Теперь этим термином описывают все, что копится и обрабатывается в сетях и ПК. Источники Больших данных — каналы, по которым мы получаем текстовые материалы, изображения, видео, аудио, графики: 

  • интернет;

  • считывающие устройства, датчики, трекеры;

  • соцсети, СМИ;

  • данные со спутника и измерительных приборов;

  • облачные хранилища;

  • научные открытия, медицинские исследования;

  • статистика компаний, городов, государств.


Те данные, которые уже обработала нейросеть или аналитик, называют структурированными. Информационные ресурсы непрерывно растут, поэтому большая часть Big Data всегда не структурирована. 

Data Science или наука о данных — это математический и статистический анализ. Цель этого процесса — обработать массивы неструктурированной информации и найти в них что-то ценное для конкретных задач.

Характеристики Больших данных

К основным признакам информации VVV — volume/объем, velocity/скорость, variety/разнообразие, со временем добавили еще три V — veracity/достоверность, variability/изменчивость, value/ценность. Сейчас актуальна еще одна характеристика — безопасность. 

  • Объем. Материалы занимают терабайты и петабайты памяти. К 2025 году Big Data увеличится до 175 зеттабайт. Обрабатывают такие объемы через грид-вычисления («виртуальный суперкомпьютер»), нейросети, специальные формулы и программы. 

  • Скорость создания. Данные быстро генерируются и постоянно обновляются в режиме реального времени. Все мы в этом участвуем: 66% людей пользуются сотовой связью, и 60% регулярно выходят в Интернет.

  • Разнообразие. Любые цифровые форматы (анимация, фильмы, транзакции, аудиофайлы, показания сенсоров) относятся к Big Data. Они могут быть упорядоченными или скапливаться хаотично. Data mining — процесс, который  помогает найти закономерности и привести данные к единому виду. 

  • Достоверность. Информация для анализа должна быть неподдельной, из надежных источников. Иначе результаты будут бесполезными.

  • Изменчивость. Большинство данных поступают не последовательно, со спадами и всплесками. 

  • Ценность. Чтобы оценить пользу данных, их делят на две категории. Важные и сложные — финансовая аналитика, показатели медицинских приборов, статистика населения, сигналы со спутников. Второстепенные и простые — фотографии из соцсетей, комментарии под видео, городской справочник. 

  • Безопасность. Файлы должны быть очищены от вирусов и защищены от взлома. Конфиденциальность данных волнует почти половину потребителей — 48% в 2019 году отказались от компаний, которые недостаточно заботятся о безопасности. И следующие 5 лет 74% предпринимателей планируют развивать этику работы с данными.

Как работает технология Big Data

Google разработали MapReduce — самую известную модель вычислений для Больших данных. На ее примере опишем технологию работы с Big Data:

  1. Массив информации проходит через программные коды MapReduce. 

  2. Программа разделяет данные на форматы.

  3. Параллельно обрабатывается каждая часть массива.

  4. В финале все результаты объединяются на отдельном узле.


Искусственные нейросети пропускают через себя нужные материалы по этому же принципу. Они получают и обрабатывают новую информацию, то есть постоянно обучаются.

Как используют Big Data 

Компании изучают своих пользователей, отслеживают мировые тенденции и делают прогнозы. Такие корпорации, как Google, Facebook, Microsoft, имеют больше данных для анализа Big Data благодаря широкой аудитории. Рассмотрим, как это работает в разных сферах.

Маркетинг. Большие данные в торговле помогают изучать предпочтения клиентов: какой товар пользуется спросом в будние и выходные дни, как меняются предпочтения из сезона в сезон. На основании результатов, гипермаркеты корректируют ассортимент, ценовую политику, оформление зала и рекламу. Так, Amazon проводит полную аналитику поведения своих покупателей, чтобы рекомендовать им подходящие товары. 

Найм сотрудников. HR-аналитику проводят, чтобы вычислить текучесть кадров, загруженность персонала, каналы привлечения новых сотрудников. Рекрутеры обрабатывают много заявок на вакансии, собирают сведения о каждом кандидате, проводят собеседования, делают заметки и по результатам выбирают подходящих.

Банки анализируют поведение клиентов и предлагают выгодные кредитные условия.

Большие данные применяют и для безопасности платежей. Например, если пользователь снял крупную сумму далеко от его места жительства, банк может заподозрить, что карта попала в руки мошенников и временно заблокировать ее.

Медицина. В здравоохранении с помощью технологии можно собирать данные о привычках пациентов, об образе жизни, хирургических вмешательствах, амбулаторных обследованиях, а после — предлагать лечение.

Также Большие данные помогают анализировать МРТ, КТ снимки и анализы. И управлять медицинским персоналом: следить, сколько пациентов принимают врачи, какое лечение назначают и удается ли вылечить людей.

Госструктуры. Большие данные помогают следить за населением, выявлять преступников и мошенников. Например, можно проанализировать где, в какое время граждане чаще нарушают порядок и разработать график патрулирования. 

Сведения о нарушителях получают через видеокамеры, GPS-датчики, анализ комментариев, публикуемого контента, сообществ в интернете. 

Транспорт. Большие данные помогают системам навигации построить маршрут в объезд пробкам и просчитывают загруженность дорог. ГЛОНАСС собирает координаты, контролирует скорость движения. Так система Яндекс.Такси показывает водителю районы с высоким спросом. 

Логистика. Здесь Big Data нужна, чтобы следить, успевают ли сотрудники принимать заказы, соблюдают ли сроки поставки и как заполняется склад. Для обработки используют машинные данные со сканеров посылок в почтовых офисах, а также отзывы людей в интернете.

Обработка фото. Программы для обработки фото считывают недостатки и автоматически корректируют их или предлагают фильтры, которые тоже работают на основании Больших данных. Есть приложения, в которые можно загрузить селфи и найти своего «двойника» или разыскать человека по фото. А в интернет-магазинах есть функция поиска похожих товаров.

В медиа Большие данные — это реакции пользователей на контент: лайки, репосты, комментарии, просмотры. Медиаресурсы научились предлагать пользователям то, что может их заинтересовать. Платформа Netflix учитывает продолжительность фильмов, жанр и даже паузы во время просмотра для подбора рекомендаций.

Методики анализа и обработки Больших данных

Машинное обучение и нейронные сети. Искусственный интеллект можно запрограммировать на распознавание лиц, математические расчеты, прогнозирование. Для этого нужны большие объемы достоверных данных из разных источников. Например, шахматист из Санкт-Петербурга загрузил сыгранные виртуальные партии в многомерную аналитическую модель и изобрел новую систему подготовки к турнирам. Так начинается много успешных стартапов.

Прогнозная аналитика. Чтобы сделать прогноз, аналитика использует шаблоны, которые построены на предыдущем опыте. С ней можно предсказать цену доллара, нефти или платежеспособность клиента банка.

Имитационное моделирование. Здесь нужно сымитировать изменения: в прошлых отчетах и графиках повысить или понизить показатель, например, цену продукта. Расчеты дохода и результаты отчетов будут меняться, так вы увидете риски.

Статистический анализ. Чем больше информации для статистики, тем выше достоверность. Статистика вычисляет средние значения. Также с помощью статистики можно определить закономерности (корреляцию).

Data Mining построена на: 

  • классификации — разделении данных на группы;

  • кластеризации — поиск сходств;

  • ассоциации — распознавании похожих образов;

  • регрессионном анализе — поиск факторов, которые могут изменить результаты;

  • анализе отклонений — поиск нетипичной информации.


Визуализация аналитических данных — это финальный этап анализа. Результаты получают в виде 3D-модели, графика, диаграммы, карты и пиктограммы, гистограммы. 

Описательная аналитика. Ее цель — изучать данные, которые поступают на компьютеры. Анализ Больших данных помогает понять, почему некоторые события приводят к успеху, а другие — к неудаче. Затем строится модель будущих действий и решений. Данные рекламных кабинетов — пример описательной аналитики. 

Предписательская аналитика находит кризисные ситуации и рассчитывает, как избежать неудач в будущем, создает сценарии, которые помогают избежать повтора ошибок.

Диагностическая аналитика выясняет причины происходящего, находит между событиями взаимосвязь и аномалии. 

Кто работает с Большими данными

Для работы с Big Data нужен навык программирования, опыт работы с системами баз данных и аналитики, знание языка java и математического анализа. 

Дата-сайентист находит закономерности, строит модели и гипотезы и прогнозирует возможные варианты событий. Может предсказать, сколько товара будет продано магазином в сезонную распродажу, или какой погоды ждать в конце лета. Для этого дата-сайентист исследует статистику прошлых лет. 

Аналитик данных проводит анализ, описывает результаты и приводит их в понятный для восприятия вид. 

Дата-инженер организует сбор информации, хранение и первоначальную обработку.

Инженеры создают программное обеспечение, которое автоматизирует задачи исследования данных. 

Проблемы и перспективы Big Data

Big Data помогает:

  • развивать новые технологии;

  • вести медицинскую статистику;

  • прогнозировать будущее компаний и государств;

  • отслеживать экологическую ситуацию;

  • создавать «умные» города и делать городскую среду комфортной.


Информации становится все больше, сведения для нейросетей постоянно обновляются. Для торговли это вечный двигатель: компании генерируют половину Больших данных, проводят исследования, результаты применяют для развития бизнеса и увеличивают их доход.  

Из-за переизбытка информации с Big Data могут возникать проблемы. Например:

  • Не хватает вычислительной мощности. Обработкой Big Data занимаются специальные вычислительные компьютеры. Это дорогие ресурсы, которые доступны только компаниям-гигантам.

  • Вопросы приватности. Компании собирают информацию, в том числе и персональную. Многие пользователи против этого и даже обращаются в суд. Иски подавали на Google, Facebook.

  • Честность работы с данными и безопасность. Есть случаи, когда на данных пытаются нелегально заработать. Продают недостоверные клиентские базы или просто конфиденциальную информацию. В этом обвинили антивирусную систему Аваст. Хакеры взламывают серверы, которые хранят Большие данные,  и данные попадают в третьи руки.

Что важно запомнить

  • Объем, скорость создания, разнообразные форматы, безопасность, ценность, изменчивость — главные признаки Больших данных. 

  • Обработкой Big Data занимаются дата-аналитики, дата-инженеры и дата-сайентисты с помощью программирования. 

  • Применяют Big Data в медицине, маркетинге, логистике и строительстве, навигации, госструктурах и медиа.

  • К минусам технологии можно отнести необходимость следить за безопасностью данных, поддерживать вычислительные ресурсы, приватность пользователей и клиентов компаний. А к плюсам — помощь в решение медицинских и экологических задач человечества, контроль распределения государственного бюджета, создание комфортной городской среды.

  • Перспективы Больших данных долгосрочные и многообещающие. Нейросети быстро развиваются и пользуются популярностью.

Актуальное

256
AHT (Average Handling Time)
AHT (Average Handling Time) отражает среднее время, которое требуется оператору для обработки одного обращения клиента.
253
Customer Value Management
CVM переводится как управление потребительской ценностью. Customer Value Management - это не просто как продать больше, но как создать долгосрочные отношения с клиентами, основанные на их потребностях и ожиданиях.
265
Call Abandonment Rate
Простым языком: это «показатель отказа», когда клиент бросает трубку не дождавшись ответа. Call Abandonment Rate — показывает долю звонков, во время которых позвонивший клиент положил трубку, не дождавшись ответа специалиста.
731
FRT (First Response Time)
FRT — время прошедшее с момента получения запроса до момента, когда был дан первый ответ, важный индикатор качества обслуживания клиентов и эффективности работы команд колл центров и контакт центров.
903
CSAT (Customer Satisfaction Score)
CSAT (Customer Satisfaction Score) широко используется командами колл центров и контакт центров для оценки удовлетворенности клиентов обслуживанием.
1 211
FCR (First call resolution rate)
Показатель оперативности решения запросов при первом обращении, может быть полезен для отслеживания и повышения эффективности обслуживания клиентов службой поддержки