Eastwind разработал модуль DataFlow
21 июня 2018
Дата сайентисты смогут работать с аналитическими моделями прямо на кластере Hadoop.
КАКАЯ БОЛЬ
Данные – топливо современного бизнеса. На информации в компаниях завязаны маркетинг, customer care, оптимизация внутренних процессов, контроль над ситуацией на рынке и многое другое. От качества, скорости работы, точности и своевременности предсказаний дата сайентиста зависит, как будет развиваться бизнес в целом и его отдельные направления. Когда аналитик работает с привычными для него инструментами, он не зависит от внешних факторов при выполнении задач. Но когда данных становится очень много, их загружают в Hadoop. И тут, многие, кто работает с большими объемами данных, сталкиваются с проблемой взаимодействия отделов разработки и аналитики.
ПЛОХАЯ НОВОСТЬ:
У БОЛЬШИНСТВА* КОМПАНИЙ ВСЕ СЛОЖНО С DATA SCIENCE VS DEVOPS
Проблема возникает, когда разные специалисты должны работать над единой задачей: например, анализом клиентской информации. Каждый из них обладает своим стеком инструментов, результат работы которых сложно копировать. Они кодят на разных языках, используют разный подход в работе. Так, дата сайентист телеком-оператора может построить гениальную аналитическую модель, работая над выборкой: на своей локальной машине, на языке python. Но когда он принесет ее DevOps-разработчику и попросит перенести в продуктив на всю абонентскую базу, тому придется переписать модель, например, на язык java и запустить в Hadoop. Скорее всего, получится не с первого раза. Часто бывает, что не получается переписать модель в точности – по техническим причинам. Плюс, добавляются сложности общения специалистов, которые фактически говорят на разных языках (программирования). Из-за этого выполнение задачи серьезно затягивается, качество на выходе падает, и все это попросту треплет всем нервы.
ХОРОШАЯ НОВОСТЬ: МЫ ЗНАЕМ, КАК ВСЕ ИСПРАВИТЬ
EW DataFlow помогает аналитику работать с данными на Hadoop, минуя DevOps-инженеров. Модуль подключается напрямую к кластеру и выводит всю необходимую информацию об имеющихся данных в удобный UI. Таким образом, EW DataFlow выступает в качестве переходника или адаптера для Hadoop. В комфортной и интуитивно понятной среде модуля дата сайентист может работать с big data на привычных для себя инструментах: быстро и без посредников. Разработчикам нужно только развернуть систему. Под капотом модуля – кластерные инструменты для расчетов, но весь код непосредственно в UI аналитик будет писать на python.
КАКИЕ ЗАДАЧИ ДАТА САЙЕНТИСТ МОЖЕТ РЕШАТЬ В EW DATAFLOW
- Подключать новые источники данных.
- Производить любой процессинг данных (семплирование, исследование, построение моделей, мониторинг и т.д).
- Запускать модели в продуктив и тюнинговать их.
- Моментально узнавать о проблемах в работе, находить ошибки в коде и править.
- Управлять всеми расчетами на кластере.
- Экспортировать результаты работы в файлы.
ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ
Экспортированные файлы с данными можно загружать в любые аналитические системы. Мы предлагаем два варианта поставки модуля EW DataFlow: как отдельный продукт – для тех, кто уже работает с данными автоматизировано или вручную, и с платформой EW Social Analytics – для тех, кому нужно комплексное решение для аналитики.
«Раньше, когда возникали проблемы с данными на Hadoop, у нас над одной задачей садились работать два человека: дата сайентист и разработчик, – рассказывает Павел Олифер, руководитель отдела социальной аналитики Eastwind. – Компания теряла время и деньги. Мы создали EW DataFlow, чтобы такого не было. Модуль делает работу дата сайентиста на кластере Hadoop прозрачной. Сам написал код, сам запустил, сам мониторишь. Если что – сам исправил. Ведь аналитика для бизнеса должна быть быстрой и актуальной. Только тогда она будет давать нужный эффект и приносить профит».
КОМУ НЕ НУЖЕН МОДУЛЬ EW DATAFLOW
- Тем, кто не работает с данными на Hadoop.
- Тем, кто растит универсальные кадры (учит аналитиков разработке или разработчиков аналитике) и готов, что их постоянно будут переманивать конкуренты.
- Тем, кто сделал кастомное решение проблемы и готов постоянно поддерживать его актуальность – ведь Hadoop все время меняется.
- Тем, кто не гонится за эффективностью и скоростью в аналитической работе.
Если это не про вас, узнайте больше и закажите презентацию продукта на странице .
*По результатам личного опроса специалистами Eastwind 15 компаний, работающих с Hadoop.