Леонид Саночкин
Академический директор онлайн-магистратуры МФТИ
Более 10 лет опыта в прикладных и фундаментальных исследованиях NLP и AI
Основная область исследований: Активное обучение в NLP
Автор публикаций в рецензируемых журналах ВАК
Работал в исследовательском институте AIRI - научно-исследовательский институт искусственного интеллекта
Интервью с академическим директором онлайн-магистратуры "Науки о данных"
Data science (Наука о данных) - область, которая за последнее время стала особенно актуальной и востребованной. Чем занимаются специалисты в этой востребованной области, чему учат на программе “Науки о данных”, о перспективах области мы поговорили с руководителем программы по Data Science Леонидом Саночкиным
Что такое Data Science, наука о данных?
Data science (Наука о данных) — это широкая область, которая занимается сбором, обработкой и анализом больших объемов данных с помощью различных методов и технологий. В основе этой дисциплины лежат математика, статистика, компьютерные науки, а также знание предметной области. В рамках программы по Data Science, студенты учатся работать с данными, сопоставлять, анализировать, строить предсказательные модели и делать выводы на основе полученных результатов. Эти навыки очень востребованы во многих сферах, включая финансы, маркетинг, e-commerce, медицину, IT и многих других
Расскажите подробнее, в каких отраслях на практике применяется Data Science?
Data Science - это дисциплина, которая находит применение в самых разных отраслях, начиная от финтеха и заканчивая добывающей промышленностью. Все, наверняка, знакомы с продуктами, созданными с помощью Data Science, такими как голосовые помощники и умные автомобили. Сложные персонализированные рекомендательные системы подбора интересного видеоконтента от Netflix, системы оценки рисков, например, в области финансовых инвестиций или в добывающей промышленности, - все это примеры применения Data Science на практике. Data Science находит свое применение почти в любых областях, помогая принимать решения на основе анализа большого объема данных и выявлять закономерности, которые не всегда заметны на первый взгляд
Какими конкретными задачами занимается дата-сайентист?
Конкретный список задач дата сайентиста зависит от самой компании, от подразделения и типа данных, с которыми нужно иметь дело. Сотрудник банка или сотрудник биолаборатории будут заниматься совершенно разными вопросами.
В этом плане прошлый опыт, уже накопленные знания и глубокое понимание предмета пригодятся в работе. Подбор источников данных и выбор оптимальных параметров для конкретной модели требует понимания доменной области, поэтому люди с опытом в какой-то сфере могут принести и использовать свою дополнительную экспертизу.
Можно выделить примерно следующий список задач, которые на том или ином этапе решает специалист по анализу больших данных. Это сбор данных, хранение, предобработка, изучение данных, в том числе с помощью моделей машинного обучения, визуализация и вывод в производство.
Все эти задачи — задачи про постановку вопроса, поиск релевантных данных, понимание данных и скрытых в них закономерностей и инсайтов, а также про принятие решений на основе полученных выводов и даже в некотором смысле про прогнозирование будущего. В бизнесе важно также, чтобы результат вашей работы был понятным для других людей. Интерпретируемость важна для тех, кто будут принимать решения на основе полученных вами результатов
Практика
Реальные бизнес-задачи могут быть в совершенно разном формате и студенты могут подключиться к их решению на протяжении всего года. Более того, если задача требует более глубокой проработки, то она включается в список так называемых “индустриальных задач”, которые студенты могут взять для проработки в рамках свой ВКР
Насколько востребована профессия специалиста по анализу больших данных и какие здесь перспективы?
Количество данных и информации растет в геометрической прогрессии. Согласно статистике, каждый год объемы создаваемых данных удваиваются, и это наблюдается во всех отраслях - от социальных сетей и интернет-магазинов до научных исследований и государственных программ. Этот рост ставит перед бизнесом и обществом новые задачи по обработке и анализу информации и Data Science в общем смысле играет здесь ключевую роль. На мой взгляд, достаточно открыть любую платформу поиска вакансий и убедиться, что область сейчас переживает свой расцвет. Тот темп, которым движется прогресс в последние несколько лет в области Data Science, поражает. Но новые открывшиеся возможности часто ставят ещё больше вопросов перед индустрией, для решения которых также понадобятся новые специалисты
Чему учат на программе и чем сможет заниматься выпускник?
Программа магистратуры предполагает изучение всего пайплайна создания и реализации решений в области Data Science с использованием ключевых инструментов машинного обучения. Углубленный курс по фундаментальным основам специальности гармонично сочетается с усиленным практическим треком. Здесь я имею в виду не только тренажеры и заранее заготовленные задачи, а также и практические проекты, которые передают студентам на проработку партнеры Центра. Это целое направление внутри практического трека, в рамках которого студенты могут напрямую поработать с представителями как крупных корпораций, так и небольших технологических стартапов, помогая им найти решения для ежедневных задач из бэклога.
В дополнение к базе, на нашей программе есть четыре специализации, в изучение которых студенты могут погрузиться в углубленном формате на втором году обучения:

  • ML engineer - создание моделей для прогнозирования в бизнесе, медицине и промышленности, обучение нейросетей, создание аналитических систем и рекомендательных сервисов на основе алгоритмов машинного обучения.
  • Big data engineer - проектирование и создание программной инфраструктуры для организации сбора, обработки и хранения данных, создание систем для работы с большими данными.
  • CV engineer - создание систем компьютерного зрения, которые позволяют распознавать и анализировать изображения, работа с различными алгоритмами обработки изображений, такими как распознавание образов, классификация и сегментация.
  • NLP engineer - создание систем обработки естественного языка. Вы научитесь работать с алгоритмами машинного обучения, которые позволяют компьютеру понимать и анализировать естественный язык, чтобы решать такие задачи, как распознавание речи, анализ тональности или разработка чат-ботов.
Что отличает вашу программу от других подобных программ в данной области и почему студенты должны выбрать обучение на этой программе?
Во-первых, это онлайн формат, который позволяет учиться в вузе в любой точке мира. Во-вторых, это возможность углубиться в одно из интересующих направлений в рамках наук о данных, о которых я сказал выше.


И, конечно, практика. Практики на данной программе очень много. Мы понимаем, что для старта карьеры необходимы полноценные проекты в портфолио. Поэтому Центр плотно работает с индустриальными партнерами - компаниями из разных сфер бизнеса, от банков до инновационных стартапов.


На данный момент уже более 60 компаний из совершенно разных областей делегирует студентам для проектной проработки те задачи, с которыми сталкиваются на ежедневной основе. Среди компаний, которые сотрудничают со студентами этой программы - Garpix, Zyfra, GreenData, 2Т, Сбер, Альфа-банк, билайн, Авито. Каждый год список партнеров и компаний-заказчиков только пополняется.


Такие реальные бизнес-задачи могут быть в совершенно разном формате и студенты могут подключиться к их решению на протяжении всего года. Более того, если задача требует глубокой проработки, то она включается в список так называемых “индустриальных задач”, которые студенты могут взять для проработки в рамках свой ВКР (выпускной квалификационной работы). На данный момент более 70% студентов выбрали именно этот путь.
Расскажите про три трека выпускной квалификационной работы, которые могут выбрать студенты
Программа предполагает возможность сделать ВКР (выпускную квалификационную работу) в трех разных форматах на выбор: классическая диссертация, индустриальная задача или даже свой стартап. Это три совершенно разных формата.
  • В первом случае студент выбирает интересующую его тему для глубокой научной проработки в рамках классической диссертации.
  • Второй трек предполагает, что студент выбирает одну из задач от партнеров и сотрудничающих с МФТИ компаний. Эти задачи из бэклога команд крупных корпораций и технологических стартапов, о которых я говорил выше. Это каждый раз какие-то новые интересные задачи, над которыми на ежедневной основе трудятся эксперты индустрии. Они же затем оценивают полученный студентами результат и даже могут использовать его в своей работе.
  • Третий трек для ВКР - это собственный стартап. Здесь вы ограничены только своей фантазией и амбициями, формат ВКР, разумеется, нужно тоже будет выдержать. Провести полноценное исследование темы, обосновать и так далее, чтобы было понятно, на какой основе держится идея, лежащая в основе стартапа.
Науки о данных
За счет углубленного погружения в основы математики и алгоритмов, а также детального освоения языка программирования Python и ключевых для ML библиотек, программа позволяет студентам приобрести все необходимые для старта карьеры знания и освоить стек востребованных инструментов
Высшее образование
Заглядывая в будущее, какие новые события или изменения вы ожидаете в своей области?
Основным изменением, которое я жду в данной области, является дальнейшее развитие авторегрессионных генеративных моделей, таких как GPT в рамках какой-то новой парадигмы. Data Science и искусственный интеллект динамично развиваются, поэтому мы стараемся постоянно актуализировать содержание нашей программы
Расскажите о своем распорядке дня?
Начинаю свой день с анализа результатов вычислений, которые обычно оставляю на ночь. Далее перехожу к основному блоку работы. В общем задачи, которые я решаю, можно описать как поиск способов реализации задуманных идей и новых методов. Для создания и обучения моделей могу брать как открытый код, так и написать новый. Как и другие разработчики, использую системы управления версиями и провожу код-ревью.

Отлаживаю код на удаленных серверах, так как методы глубокого обучения требуют мощных графических процессоров. Также провожу эксперименты для проверки гипотез. Часто нужно провести множество экспериментов, чтобы прийти к наилучшей модели, т.к. разброс качества моделей может быть высоким. Это может быть связано как с качеством вводных данных, используемыми параметрами, удачно подобранной выборкой и другими факторами. В течение дня могу проводить собеседование с кандидатами в команду. Здесь обычно оцениваю, как кандидат представляет себе работу в сфере ML, следит за развитием научной мысли и хочет ли искать новые подходы и методы.


Обязательно уделяю время изучению актуальных исследований. Машинное обучение очень динамично развивается. Последняя революция случилась в 2017 году, когда сверточные и рекуррентные нейронные сети, которые и сами были прорывом в в свое время, ушли в прошлое и трендом стала архитектура трансформеров. Для NLP – это совершенно новый путь. Считаю важным следить за повесткой конференций рейтинга coreA/A*, в нашей области — это ACL, ECAL, NAACL, AACL и EMNLP по NLP и AAAI, IJCAI, NeurIPS - более общего формата.


Вечером уделяю время научной работе: пишу статьи, где описываю полученные наработки, согласую материал с коллегами, готовлюсь к участию в профильных конференциях, работаю с обратной связью. Публикации размещаются на только в академических изданиях, но и для более широкой аудитории, например, часто публикуемся на Habr, но и там есть свои требования.
Как правило, перед сном ставлю вычисления на ночь, которые проверю уже утром
Чем предпочтете заняться в свободное время?
В свободное время я провожу время со своей женой и друзьями, гуляю с моей собакой Оби Ваном (аляскинский маламут). Конец моего рабочего дня зависит от того, когда я закончу вести лекции. Вечером я обычно встречаюсь с друзьями в баре, гуляю в парке или играю на гитаре. Я получил музыкальное образование по классу фортепиано, но сейчас больше увлечен струнными инструментами. Уже собрал мини-коллекцию из укулеле, акустической и электрогитары
Напоследок скажите, что Вы цените в людях?
В людях я ценю целеустремленность и умение решать задачи нестандартными методами