Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р Р‹Р Р†РІР‚С›РЎС›Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р Р‹Р Р†Р вЂљРЎвЂќР В Р’В Р В Р вЂ№Р В Р Р‹Р Р†Р вЂљРЎвЂќР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћвЂ“Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р Р‹Р Р†Р вЂљРЎвЂќР В Р’В Р В Р вЂ№Р В Р Р‹Р Р†Р вЂљРЎвЂќР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћвЂ“Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р В Р вЂ№Р В Р Р‹Р Р†Р вЂљРЎвЂќР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В¦Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РІР‚вЂњР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р Р‹Р Р†РІР‚С›РЎС›Р В Р’В Р вЂ™Р’В Р В Р’В Р В РІР‚в„–Р В Р’В Р В РІР‚В Р В Р вЂ Р В РІР‚С™Р РЋРІР‚С”Р В Р Р‹Р РЋРІР‚С”Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В°Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћвЂ“Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р В Р вЂ№Р В Р Р‹Р РЋРІвЂћСћР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РІР‚вЂњР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р Р‹Р Р†РІР‚С›РЎС›Р В Р’В Р вЂ™Р’В Р В Р’В Р В РІР‚в„–Р В Р’В Р В РІР‚В Р В Р вЂ Р В РІР‚С™Р РЋРІР‚С”Р В Р Р‹Р РЋРІР‚С”Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’Вµ
Telegram

Big Data

Оглавление

Что такое Big Data

Big Data — это бесконечные объемы оцифрованной информации. В 2008 году редактор научного журнала Nature Клиффорд Линч рассказал о потоке «больших данных». Теперь этим термином описывают все, что копится и обрабатывается в сетях и ПК. Источники Больших данных — каналы, по которым мы получаем текстовые материалы, изображения, видео, аудио, графики:

интернет;
считывающие устройства, датчики, трекеры;
соцсети, СМИ;
данные со спутника и измерительных приборов;
облачные хранилища;
научные открытия, медицинские исследования;
статистика компаний, городов, государств.

Те данные, которые уже обработала нейросеть или аналитик, называют структурированными. Информационные ресурсы непрерывно растут, поэтому большая часть Big Data всегда не структурирована.

Data Science или наука о данных — это математический и статистический анализ. Цель этого процесса — обработать массивы неструктурированной информации и найти в них что-то ценное для конкретных задач.

Характеристики Больших данных

К основным признакам информации VVV — volume/объем, velocity/скорость, variety/разнообразие, со временем добавили еще три V — veracity/достоверность, variability/изменчивость, value/ценность. Сейчас актуальна еще одна характеристика — безопасность.

Объем. Материалы занимают терабайты и петабайты памяти. К 2025 году Big Data увеличится до 175 зеттабайт. Обрабатывают такие объемы через грид-вычисления («виртуальный суперкомпьютер»), нейросети, специальные формулы и программы.
Скорость создания. Данные быстро генерируются и постоянно обновляются в режиме реального времени. Все мы в этом участвуем: 66% людей пользуются сотовой связью, и 60% регулярно выходят в Интернет.
Разнообразие. Любые цифровые форматы (анимация, фильмы, транзакции, аудиофайлы, показания сенсоров) относятся к Big Data. Они могут быть упорядоченными или скапливаться хаотично. Data mining — процесс, который помогает найти закономерности и привести данные к единому виду.
Достоверность. Информация для анализа должна быть неподдельной, из надежных источников. Иначе результаты будут бесполезными.
Изменчивость. Большинство данных поступают не последовательно, со спадами и всплесками.
Ценность. Чтобы оценить пользу данных, их делят на две категории. Важные и сложные — финансовая аналитика, показатели медицинских приборов, статистика населения, сигналы со спутников. Второстепенные и простые — фотографии из соцсетей, комментарии под видео, городской справочник.
Безопасность. Файлы должны быть очищены от вирусов и защищены от взлома. Конфиденциальность данных волнует почти половину потребителей — 48% в 2019 году отказались от компаний, которые недостаточно заботятся о безопасности. И следующие 5 лет 74% предпринимателей планируют развивать этику работы с данными.

Как работает технология Big Data

Google разработали MapReduce — самую известную модель вычислений для Больших данных. На ее примере опишем технологию работы с Big Data:

Массив информации проходит через программные коды MapReduce.
Программа разделяет данные на форматы.
Параллельно обрабатывается каждая часть массива.
В финале все результаты объединяются на отдельном узле.

Искусственные нейросети пропускают через себя нужные материалы по этому же принципу. Они получают и обрабатывают новую информацию, то есть постоянно обучаются.

Как используют Big Data

Компании изучают своих пользователей, отслеживают мировые тенденции и делают прогнозы. Такие корпорации, как Google, Facebook, Microsoft, имеют больше данных для анализа Big Data благодаря широкой аудитории. Рассмотрим, как это работает в разных сферах.

Маркетинг. Большие данные в торговле помогают изучать предпочтения клиентов: какой товар пользуется спросом в будние и выходные дни, как меняются предпочтения из сезона в сезон. На основании результатов, гипермаркеты корректируют ассортимент, ценовую политику, оформление зала и рекламу. Так, Amazon проводит полную аналитику поведения своих покупателей, чтобы рекомендовать им подходящие товары.

Найм сотрудников. HR-аналитику проводят, чтобы вычислить текучесть кадров, загруженность персонала, каналы привлечения новых сотрудников. Рекрутеры обрабатывают много заявок на вакансии, собирают сведения о каждом кандидате, проводят собеседования, делают заметки и по результатам выбирают подходящих.

Банки анализируют поведение клиентов и предлагают выгодные кредитные условия.

Большие данные применяют и для безопасности платежей. Например, если пользователь снял крупную сумму далеко от его места жительства, банк может заподозрить, что карта попала в руки мошенников и временно заблокировать ее.

Медицина. В здравоохранении с помощью технологии можно собирать данные о привычках пациентов, об образе жизни, хирургических вмешательствах, амбулаторных обследованиях, а после — предлагать лечение.

Также Большие данные помогают анализировать МРТ, КТ снимки и анализы. И управлять медицинским персоналом: следить, сколько пациентов принимают врачи, какое лечение назначают и удается ли вылечить людей.

Госструктуры. Большие данные помогают следить за населением, выявлять преступников и мошенников. Например, можно проанализировать где, в какое время граждане чаще нарушают порядок и разработать график патрулирования.

Сведения о нарушителях получают через видеокамеры, GPS-датчики, анализ комментариев, публикуемого контента, сообществ в интернете.

Транспорт. Большие данные помогают системам навигации построить маршрут в объезд пробкам и просчитывают загруженность дорог. ГЛОНАСС собирает координаты, контролирует скорость движения. Так система Яндекс.Такси показывает водителю районы с высоким спросом.

Логистика. Здесь Big Data нужна, чтобы следить, успевают ли сотрудники принимать заказы, соблюдают ли сроки поставки и как заполняется склад. Для обработки используют машинные данные со сканеров посылок в почтовых офисах, а также отзывы людей в интернете.

Обработка фото. Программы для обработки фото считывают недостатки и автоматически корректируют их или предлагают фильтры, которые тоже работают на основании Больших данных. Есть приложения, в которые можно загрузить селфи и найти своего «двойника» или разыскать человека по фото. А в интернет-магазинах есть функция поиска похожих товаров.

В медиа Большие данные — это реакции пользователей на контент: лайки, репосты, комментарии, просмотры. Медиаресурсы научились предлагать пользователям то, что может их заинтересовать. Платформа Netflix учитывает продолжительность фильмов, жанр и даже паузы во время просмотра для подбора рекомендаций.

Методики анализа и обработки Больших данных

Машинное обучение и нейронные сети. Искусственный интеллект можно запрограммировать на распознавание лиц, математические расчеты, прогнозирование. Для этого нужны большие объемы достоверных данных из разных источников. Например, шахматист из Санкт-Петербурга загрузил сыгранные виртуальные партии в многомерную аналитическую модель и изобрел новую систему подготовки к турнирам. Так начинается много успешных стартапов.

Прогнозная аналитика. Чтобы сделать прогноз, аналитика использует шаблоны, которые построены на предыдущем опыте. С ней можно предсказать цену доллара, нефти или платежеспособность клиента банка.

Имитационное моделирование. Здесь нужно сымитировать изменения: в прошлых отчетах и графиках повысить или понизить показатель, например, цену продукта. Расчеты дохода и результаты отчетов будут меняться, так вы увидете риски.

Статистический анализ. Чем больше информации для статистики, тем выше достоверность. Статистика вычисляет средние значения. Также с помощью статистики можно определить закономерности (корреляцию).

Data Mining построена на:

классификации — разделении данных на группы;
кластеризации — поиск сходств;
ассоциации — распознавании похожих образов;
регрессионном анализе — поиск факторов, которые могут изменить результаты;
анализе отклонений — поиск нетипичной информации.

Визуализация аналитических данных — это финальный этап анализа. Результаты получают в виде 3D-модели, графика, диаграммы, карты и пиктограммы, гистограммы.

Описательная аналитика. Ее цель — изучать данные, которые поступают на компьютеры. Анализ Больших данных помогает понять, почему некоторые события приводят к успеху, а другие — к неудаче. Затем строится модель будущих действий и решений. Данные рекламных кабинетов — пример описательной аналитики.

Предписательская аналитика находит кризисные ситуации и рассчитывает, как избежать неудач в будущем, создает сценарии, которые помогают избежать повтора ошибок.

Диагностическая аналитика выясняет причины происходящего, находит между событиями взаимосвязь и аномалии.

Кто работает с Большими данными

Для работы с Big Data нужен навык программирования, опыт работы с системами баз данных и аналитики, знание языка java и математического анализа.

Дата-сайентист находит закономерности, строит модели и гипотезы и прогнозирует возможные варианты событий. Может предсказать, сколько товара будет продано магазином в сезонную распродажу, или какой погоды ждать в конце лета. Для этого дата-сайентист исследует статистику прошлых лет.

Аналитик данных проводит анализ, описывает результаты и приводит их в понятный для восприятия вид.

Дата-инженер организует сбор информации, хранение и первоначальную обработку.

Инженеры создают программное обеспечение, которое автоматизирует задачи исследования данных.

Проблемы и перспективы Big Data

Big Data помогает:

развивать новые технологии;
вести медицинскую статистику;
прогнозировать будущее компаний и государств;
отслеживать экологическую ситуацию;
создавать «умные» города и делать городскую среду комфортной.

Информации становится все больше, сведения для нейросетей постоянно обновляются. Для торговли это вечный двигатель: компании генерируют половину Больших данных, проводят исследования, результаты применяют для развития бизнеса и увеличивают их доход.

Из-за переизбытка информации с Big Data могут возникать проблемы. Например:

Не хватает вычислительной мощности. Обработкой Big Data занимаются специальные вычислительные компьютеры. Это дорогие ресурсы, которые доступны только компаниям-гигантам.
Вопросы приватности. Компании собирают информацию, в том числе и персональную. Многие пользователи против этого и даже обращаются в суд. Иски подавали на Google, Facebook.
Честность работы с данными и безопасность. Есть случаи, когда на данных пытаются нелегально заработать. Продают недостоверные клиентские базы или просто конфиденциальную информацию. В этом обвинили антивирусную систему Аваст. Хакеры взламывают серверы, которые хранят Большие данные, и данные попадают в третьи руки.

Что важно запомнить

Объем, скорость создания, разнообразные форматы, безопасность, ценность, изменчивость — главные признаки Больших данных.
Обработкой Big Data занимаются дата-аналитики, дата-инженеры и дата-сайентисты с помощью программирования.
Применяют Big Data в медицине, маркетинге, логистике и строительстве, навигации, госструктурах и медиа.
К минусам технологии можно отнести необходимость следить за безопасностью данных, поддерживать вычислительные ресурсы, приватность пользователей и клиентов компаний. А к плюсам — помощь в решение медицинских и экологических задач человечества, контроль распределения государственного бюджета, создание комфортной городской среды.
Перспективы Больших данных долгосрочные и многообещающие. Нейросети быстро развиваются и пользуются популярностью.