Что такое «Big Data»?

Big Data (по-русски «Большие данные») — это очень большой массив информации, который воспроизводится людьми в интернете. При этом данные могут быть сохранены, обработаны и использованы с помощью специальных инструментов и методик.

Как пример можно привести персонализацию выдачи информации конкретному пользователю на основе его интересов и просмотренных страниц. Это могут быть рекомендованные к просмотру статьи, товары и т.д.

В начале 2000-х годов аналитик Дуглас Лани привел популярное ныне определение термина «Big Data», основанное на трех V:

Volume (объем). Организация собирает данные из нескольких источников (это могут быть терабайты или даже петабайты данных). Это могут быть данные о посещении веб-страниц, транзакции, данные с различных датчиков. Немаловажно что они являются не структурированными. В прошлом хранение такого кол-ва информации было проблемой, но в наше время с помощью новых технологий (к примеру, Hadoop) они стали преобразовываться в ценную информацию.

Velocity (скорость). Потоки данных поступают с очень высокой скоростью и должны быть обработаны своевременно. Сенсоры, RFID-метки, умный учет приводят к тому что потоки данных необходимо обрабатывать в почти реальном времени.

Variety (разнообразие). Информация приходит во всех типах форматов, от структурированной, пронумерованной в традиционных базах данных до неструктурированной в виде текстовых документов, писем в электронной почте, видео, аудио, биржевой информации и банковских транзакций.

В сокращенном виде это описание можно увидеть также как «3 Vs».

Возврат к списку