ML, DL и fails: аналитики Eastwind о том, как прошел Data Fest 2018
11 мая 2018
28 апреля на территории дизайн-завода FLACON прошел пятый московский Data Fest. Дата сайентисты Eastwind побывали на конференции и делятся впечатлениями.
Data Fest – крупнейшее в России событие для тех, кто профессионально работает с данными. Во FLACON собрались инженеры и разработчики, связанные с ML, и big data аналитики со всей страны. В этом году на конференции было представлено больше 30 различных секций в 7 залах, где эксперты разобрали data science по косточкам.
«Было интересно узнать об инструментах и архитектурных решениях, которые используют другие компании в больших данных и машинном обучении, – рассказал Михаил Шульгин, разработчик отдела анализа данных Eastwind. – Своим опытом поделились Mail.ru Group, Яндекс, Сбербанк, МТС. Основная проблема всех аналитиков – отсутствие хороших, стабильных инструментов, которыми можно было бы решать широкий круг задач. Поэтому, когда задачи перестают быть тривиальными или вырастают жесткие ограничения по ресурсам, невозможно обойтись какими-то open-source решениями без доработки 'под себя'. Одним из таких представленных решений стала разработка 'ok-ml-pipelines' от команды Одноклассники, которая существенно расширяет стандартный функционал открытой библиотеки MLlib для Spark».
Все многообразие докладов Data Fest можно разделить на три основные темы: работа с моделями машинного обучения и deep learning, инструменты и инженерная начинка решений и польза бизнеса от всего этого.
«Было много секций по Deep Learning – сейчас этим активно интересуются. Также спикеры часто поднимали тему построения рекомендательных систем, – рассказывает Алена Сидельникова, разработчик группы анализа данных Eastwind. – Понравилось, что доклады были представлены сильными командами и ВУЗами. Спикеры рассказывали о реальных задачах и способах решения – можно было сравнить как опыт, схожий с нашим, так и совершенно из другой отрасли. Например, было интересно узнать о работе Яндекс.Погоды – на каких фичах они обучаются, как решают проблемы нехватки метеостанций и разрозненных данных».
О том, чего стоил Яндексу глобальный прогноз погоды поделилась в своем докладе Светлана Поспелова, разработчик одноименного сервиса. А ее коллега Василий Ершов рассказал о новой библиотеке Яндекса CatBoost, и показал преимущество ее GPU версии. Также наши аналитики отметили прикладную пользу доклада Константина Воронцова из МФТИ – о новых возможностях тематического моделирования в библиотеке BigARTM.
«Новые библиотеки – это то, что можно применять в задачах здесь и сейчас, – пояснила Алена Сидельникова. – Было полезно послушать, как в других командах решаются вопросы хранения и обработки больших данных, о реализации ML на Spark. А еще – как и с какой целью другие компании применяют социальную аналитику. Для нас такие события – возможность посмотреть свежим взглядом на свой продукт Social Analytics и сделать его еще эффективнее».
Чтобы участники конференции могли плотнее пообщаться с практиками и посмотреть на их работу вживую, в каждой секции доклады были разбавлены воркшопами. Под неудачи, которые обычно замалчивают, на Data Fest выделили специальный блок: ML failconf. Спикеры из Яндекса, ЦФТ и Kreate честно рассказали о граблях, на которые сами наступали: например, как не сделали рекомендательную систему в банке или какие основные ошибки совершают дата сайентисты в бизнесовых проектах.
«Порадовало увеличение количества библиотек с открытым кодом. Самые интересные сейчас российские разработки – CatBoost и BigARTM – мы планируем попробовать на наших задачах – поделилась Ольга Анненкова, разработчик группы анализа данных Eastwind. – Не перестают удивлять разнообразие приложений и сложность архитектур аналитических моделей. Однако, дата сайентисты все больше говорят о том, что машинное обучение часто работает не так, как задумывалось. И о том, что аналитику нужно правильно приготовить, чтобы она приносила какую-то пользу. Среди популярных граблей: ошибки в постановке экспериментов, нестабильность работы моделей во времени, разница реализаций между экспериментальной и продакшн версиями, отсутствие обратной совместимости в аналитических инструментах».
Параллельно с основной программой на Data Fest работали секции Unconference – открытая площадка для неформального общения дата-сообщества. Среди активностей были и экспресс-собеседования от компаний, партнеров конференции. Всего на событии в этом году собралось более 3000 специалистов, работающих в data science. Это в 6,5 раз больше, чем на первом Data Fest.
«Data Fest собирает кучу талантливых ребят, которые делают много крутых проектов, делятся опытом и вдохновляют на новые разработки, – подытожила Ольга Анненкова. – Основные кейсы и проблемы, связанные с ML на big data, показались нам знакомыми. Было любопытно узнать, как они решаются в других компаниях, на других масштабах».