Напишите нам
Оставьте ваши контактные данные и вопрос, и мы свяжемся с вами в течение одного рабочего дня.
*
*
*
*

Гибкие фильтры и автоматический перезапуск аналитических задач: новый релиз EW DataFlow

18 октября 2024
Теперь можно еще эффективнее управлять задачами в Hadoop-кластере благодаря обновлениям EW DataFlow. Рассказываем, какие возможности мы добавили в ответ на запросы клиентов и как они упрощают рутину дата-инженеров и дата-сайентистов.

В новом релизе EW DataFlow мы добавили возможности, которые облегчают управление вычислительными ресурсами и аналитическими задачами. Подробнее о нововведениях — в этой статье.

EW DataFlow — платформа для работы с большими данными в экосистеме Hadoop, которая позволяет запускать, настраивать и отслеживать вычислительные задачи (джобы) в low-code среде.

 

Гибкая фильтрация задач на главном экране

Задача

Ранее на главном экране отображалось одновременно лишь 10-20 аналитических задач (джобов). Однако в реальной работе их количество может достигать нескольких сотен, и чтобы найти нужную задачу, приходилось долго скроллить список и выискивать по названию.  
 

Решение

Мы добавили фильтры и сортировку джобов по различным критериям. Так можно быстрее находить нужные задачи и концентрироваться на самых важных.

Также появились фильтры, чтобы выявлять задачи с ошибками или задержками в исполнении. Благодаря этому дата-специалисты могут оперативно реагировать на проблемы, — например, сфокусироваться на джобах, которые выполняются дольше обычного и тем самым потребляют ресурсы.


Фильтры на главном экране: автор задачи (Created by me), тип, статус, даты выполнения, кастомные теги


Автоматический перезапуск импорта

Задача

Задачи по импорту из сторонних источников не всегда завершаются успешно, так как зависят от внешних систем. Например, дата-инженеры настроили импорт на 11:00, но сторонние базы данных подготовили их к выгрузке только в 11:30. Поскольку данных не было к указанному времени, импорт в EW DataFlow прерывался с ошибкой. 

В таких случаях у пользователей платформы было несколько обходных решений, но все они зависели от человеческого фактора. Например, после неуспешного импорта приходилось перезапускать джоб вручную. Если специалисты забывали об этом, данные за определенный период становились недоступны или устаревали.
 

Решение

Чтобы автоматизировать процесс, мы добавили возможность автоматического перезапуска джобов для операций импорта. Если задача не выполнена с первого раза, EW DataFlow попытается выполнить ее еще три раза, с интервалом в один час — например, в 11:00, 12:00 и 13:00. Это увеличивает вероятность успешного выполнения задачи, даже если данные становятся доступны позже запланированного времени. Также автоматизация помогает снизить риск ошибок, связанных с человеческим фактором, и тем самым избежать недоступности данных.


Автоматический перезапуск импорта установлен по умолчанию, но при необходимости его можно отключить — у пользователей есть полный контроль над процессом


Сохранение логов и истории выполнения после перезапуска задач

Задача

Раньше при остановке аналитической задачи, например, при изменении ее конфигурации, вся история выполнения и логи обнулялись. Когда другой пользователь открывал перезапущенную задачу с пустой историей, приходилось тратить время, чтобы понять, что данные никуда не делись. Также нельзя было сравнить, как изменилось выполнение задачи после внесения изменений, например, быстрее или медленнее она стала отрабатывать, какие ошибки возникали раньше.
 

Решение

Теперь все данные о выполнении задачи сохраняются даже после ее остановки или перезапуска. Это позволяет легко отслеживать изменения в производительности и времени исполнения джобов, выявлять потенциальные проблемы и оптимизировать код.

В будущем мы планируем сделать логи более информативными и структурированными. Например, данные будут разбиваться по этапам выполнения задачи: подготовка, исполнение, завершение. Благодаря этому дата-специалисты смогут быстрее выявлять, где возникла ошибка и как ее исправить.


Если кажется, что после перезапуска задача стала занимать больше времени, это можно проверить благодаря сохраненным логам, времени и истории выполнения


Удобное представление связей между задачами

Задача

Ранее пользователи EW DataFlow сталкивались с трудностями при визуализации связей между задачами. На графике эти связи представлены тонкими линиями между блоками джобов. С ростом задач связей становилось все больше, поэтому график выглядел перегруженным и плохо читался. Из-за этого было сложно анализировать джобы и выявлять возможные проблемы.
 

Решение 

Теперь связи между задачами не отображаются на экране разом: пользователь может выбрать, какие из линий показать. Для этого нужно кликнуть на кнопку «+» справа или слева от блока — после этого раскроются дополнительные связи. Это делает визуализацию более контролируемой и помогает быстрее разобраться, какие задачи в цепочке джобов, например, привели к ошибке.



Анализ сложных зависимостей стал удобнее и интуитивнее, что ускоряет решение рабочих задач


Остановка инстанса задачи для высвобождения ресурсов

Задача

При работе с большими данными важно иметь возможность гибко управлять вычислительными ресурсами, чтобы в нужный момент освободить их под более приоритетные задачи. Это можно реализовать с помощью остановки инстанса — выполнения джоба за единицу времени: час, день, неделю. 

Раньше дата-специалистам приходилось вручную останавливать аналитические задачи, полностью выключая их на неопределенный срок. Потом они могли забыть перезапустить джоб в нужное время, что приводило к недоступности и устареванию данных.
 

Решение 

В новом релизе мы добавили возможность остановить выполнение одного инстанса джоба нажатием кнопки «Kill Instance». При этом EW DataFlow автоматически перезапустит джоб на следующем цикле через час, день, неделю — в зависимости от установленного расписания. Это снижает риск длительных простоев и недоступности данных.


«Kill Instance» позволяет более гибко управлять ресурсами и задачами в Hadoop-кластере


Другие обновления

Помимо перечисленных изменений, в новом релизе EW DataFlow есть другие минорные обновления. Например, мы улучшили редактор кода, чтобы пользователям было комфортнее работать со скриптами. Также мы добавили возможность разделять файлы при экспорте во внешние системы, что помогает гибко управлять выгрузкой данных. Еще один полезный апдейт — возможность посмотреть, в каких джобах используются преднастроенные пресеты вычислительных ресурсов.

Многие из этих обновлений разработаны в ответ на запросы и предложения пользователей платформы. Мы ценим обратную связь и стремимся улучшать EW DataFlow на основе потребностей наших заказчиков, чтобы повысить эффективность процессов и обеспечить гибкое управление задачами в Hadoop-кластере.

Узнать больше о возможностях EW DataFlow
Вернуться к списку новостей