Big Data инхаус и Hadoop по-новому: о трендах развития больших данных и BI
27 марта 2023
22 марта в Москве состоялась конференция Big Data и BI Day 2023, посвящённая современным подходам к аналитике больших данных и их использованию в бизнесе. Послушать спикеров и узнать о развитии Big Data & BI приехали порядка ста гостей, среди которых были и представители Eastwind.
Несмотря на то, что мероприятие прошло под эгидой Business Intelligence, направление Big Data порадовало довольно интересными выступлениями. Исходя из докладов, удалось выявить несколько главных трендов развития технологии.
Например, НЛМК выстроили все свои процессы «инхаус», начиная с аналитики Big Data и построения моделей машинного обучения, заканчивая выводом в продакшен и дальнейшей поддержки. Наращивать компетенции и максимально плотно работать с open-source решениями — выбор компании. Не в последнюю очередь это продиктовано стремлением сэкономить бюджет.
Интересным был кейс УБРиР (Уральский Банк Реконструкции и Развития) по созданию сервиса банковских кросс-продаж на инфраструктуре Big Data в облаке. По сути специалисты компании отказались от классического подхода закупать собственное железо и вынесли расчёты в облачные платформы. Формат работы получается такой: вы быстро разворачиваете Hadoop-кластер в облаке, производите на нём расчёты и тут же схлапываете.
Получается эффект рубильника: когда нужно — включили, когда не нужно — выключили. В теории это приводит к экономии средств, но не всё так просто:
Новая парадигма заключается в том, что существуют две отдельные подсистемы: хранения и вычисления. С одной стороны, это требует большего количества ресурсов — железа, в частности. С другой — система становится более устойчивой.
Выглядит это так: в серверах хранения должно быть много дисков, мало ядер и немного оперативной памяти. Данные в этих серверах разделены на три категории в зависимости от частоты обращения к ним: холодные, тёплые и горячие. При необходимости провести расчёты, данные из подсистемы хранения поднимаются в оперативную память, но не в свою, а в память подсистемы вычисления. В вычислительных узлах уже стоит больше оперативной памяти и ядер, а расчёты идут на большой скорости.
Что даёт такой подход:
Обратная сторона медали — немалые затраты на железо.
Мы же будем держать руку на пульсе развития AI и Big Data, чтобы высокие технологии становились частью информационного поля.
Вернуться к списку новостей
Несмотря на то, что мероприятие прошло под эгидой Business Intelligence, направление Big Data порадовало довольно интересными выступлениями. Исходя из докладов, удалось выявить несколько главных трендов развития технологии.
Развиваем Big Data инхаус
Одним из трендов для крупных компаний в аналитике больших данных стало желание развивать собственные команды. Заметно, что бизнес стремится держать под контролем все этапы разработки и внедрения, а заодно сохранить на своей стороне все данные.Например, НЛМК выстроили все свои процессы «инхаус», начиная с аналитики Big Data и построения моделей машинного обучения, заканчивая выводом в продакшен и дальнейшей поддержки. Наращивать компетенции и максимально плотно работать с open-source решениями — выбор компании. Не в последнюю очередь это продиктовано стремлением сэкономить бюджет.
Интересным был кейс УБРиР (Уральский Банк Реконструкции и Развития) по созданию сервиса банковских кросс-продаж на инфраструктуре Big Data в облаке. По сути специалисты компании отказались от классического подхода закупать собственное железо и вынесли расчёты в облачные платформы. Формат работы получается такой: вы быстро разворачиваете Hadoop-кластер в облаке, производите на нём расчёты и тут же схлапываете.
Получается эффект рубильника: когда нужно — включили, когда не нужно — выключили. В теории это приводит к экономии средств, но не всё так просто:
- Судя по собственным подсчётам УБРиР, в облако выгодно вкладываться на горизонте до пяти лет. После этого стоимость подписки на сервис становится равна затратам на собственное оборудование.
- Что касается быстрого разворачивания Hadoop-кластера в облаке, то это сработает, только если количество данных измеряется гигабайтами. Терабайты и тем более петабайты быстро загрузить в облако не получится.
Модифицируем Hadoop
Очередной тренд — это стремление разнести data storage и data processing в системах обработки больших данных. То есть, если в классическом Hadoop существует множество узлов, которые одновременно хранят данные и занимаются вычислениями, то теперь есть попытки сделать по-другому.Новая парадигма заключается в том, что существуют две отдельные подсистемы: хранения и вычисления. С одной стороны, это требует большего количества ресурсов — железа, в частности. С другой — система становится более устойчивой.
Выглядит это так: в серверах хранения должно быть много дисков, мало ядер и немного оперативной памяти. Данные в этих серверах разделены на три категории в зависимости от частоты обращения к ним: холодные, тёплые и горячие. При необходимости провести расчёты, данные из подсистемы хранения поднимаются в оперативную память, но не в свою, а в память подсистемы вычисления. В вычислительных узлах уже стоит больше оперативной памяти и ядер, а расчёты идут на большой скорости.
Что даёт такой подход:
- Для дисковой подсистемы обеспечивается высокая отказоустойчивость.
- Для вычислительной — максимальная производительность.
Обратная сторона медали — немалые затраты на железо.
Выводы
Насколько зарождающиеся тренды будут приняты в стремительно меняющемся мире больших данных — это пока открытый вопрос. Пока видно, что есть стремление развивать собственные решения, и, надо отметить, что они порой не хуже зарубежных.Мы же будем держать руку на пульсе развития AI и Big Data, чтобы высокие технологии становились частью информационного поля.