30 років в ІТ. Як потрапив у Data Science, які проєкти є революційними, чому навчатися тим, хто розпочинає шлях у Data Science – тези участі Дмитра Пелешка, Dr. Sc., Professor, Data Scientist / Machine Learning Engineer, GeoGuard у вебінарі Data Talks #6.
Як Дмитро став дата-саєнтистом?
Закінчив мехмат університету Івана Франка (Львів). Шлях до Data Science, за словами Дмитра, був тернистим. На початку кар’єри потрапив на звичайний production. Працював на різних проєктах, пов’язаних з розробкою геоінформаційних систем, управлінням нафтовими вишками, ін. Але поступово (паралельно працював в університеті) наукові дослідження, в т.ч. в рамках дисертації перетягнули фокус у бік Computer Vision. І тоді Дмитро Пелешко змінив профіль зі звичайного продакшену на Data Science. Дивіться професійний профіль Дмитра Пелешка.
Розповідаючи власну історію на вебінарі (повне відео події), зауважив, що у кожного в Data Science буде свій шлях, але на сьогодні без математичної освіти / підготовки він є нереальний.
Знакові проєкти по Data Science та Machine Learning
Найбільш знаковий проєкт був по мультимодальних системах. На цьому проєкті ми з Оленою (Олена Винокурова, колега Дмитра по GeoGuard) багато вчилися. До нього ми вміли будувати одномодальні системи, і це була наша перша важлива спроба, коли ми поєднували штучний інтелект різної модальності в одній системі. Ми отримали колосальний досвід.
Зараз Дмитро залучений у проєкти, пов’язані з детекцією аномалій в електронних транзакціях. Але це вже більш класичні задачі на використання кластеризаторів, різноманітних дерев, автоенкодерів. Задачі, які, з одного боку, ніби дуже добре розв’язані у загальних випадках, але у конкретних кейсах вони потребують тюнінгу. Взяти щось готове і використати це в конкретній компанії на сьогоднішній день нереально.
Поряд із проєктами для клієнтів – багато років викладання в університетах. Курси, пов’язані з машинним навчанням, штучним інтелектом, обробкою зображень.
Про улюблений пет-проєкт
Років 8 тому ми абсолютно випадково побачили, як один з німецьких університетів пробував зробити систему, що давала змогу залишати людей похилого віку і неповносправних у них вдома наодинці. Система за ними слідкувала і у конкретних випадках викликала певний сигнал. Але це були дуже обмежені кейси (людина сидить, впала…)… Все було дуже примітивно і просто. І ми подумали, а чому би нам не створити таку систему?
Наша ідея була ширша. Люди похилого віку, як правило, мають купу різних питань зі здоров’ям, і системи повинні мати мінімальний вплив на таких людей. Плюс, такі системи повинні моніторити середовище, в якому людина живе, тому що біда може бути, до прикладу, в тому, що людина відкрила газ… Це мало бути комплексне emergency. Ми почали з простих задач… Потім пробували знайти фінансування, отримати гранти, але не вийшло. Проте це був кейс, де ми багато чого спробували!
Революційні проєкти, якими зараз варто зацікавитися
Весь продуктовий штучний інтелект і продуктовий Data Science – це на сьогодні системи, які побудовані на прийнятті рішень на основі єдиного потоку даних. Але насправді людина себе так не веде (вона має зір, слух…+ здатність додумувати). Тобто, людина приймає рішення, обробляючи інформацію з різних каналів.
Коли ми почали займатися мультимодальними системами, то передивилися купу статей та коду на Github (github.com). В більшості це було, максимум, дві модальності. І це нас страшенно надихнуло.
Я думаю, свого часу ми були перші, хто зробив чотири модальності. Сьогодні намагаємося робити п’ять. І сподіваємося, якщо нам це вдасться, то ми додамо ще одну модальність. Крім NLP, ми всі модальності можемо об’єднати в одну. І тоді decision-making буде здійснюватися на основі різної інформації з різних каналів. Приблизно так, як думає людина.
Майбутнє саме за такими системами, якщо мова йде про робота, який повинен бути максимально схожий на людину.
Щодо звичайних продуктових систем – Дмитра зараз нічого особливо не вражає.
Про готові рішення, AutoML
Всі, хто займаються Data Science, використовують такі сервіси, починаючи з оренди машин (as a Service), до вже натренованих моделей. І тут є два моменти:
- Використання таких моделей дуже корисне, щоб зробити якийсь попередній estimation. – Чи загальна ідея має місце? Чи дасть результат?
- Використання готових рішень в багатьох випадках буде вимагати тюнінгу, щоб адаптувати до конкретної задачі замовника. Але більша проблема – чи готовий замовник платити за користування таким сервісом, тому що такий сервіс є платним.
Дмитро в цілому є прихильником використання AutoML рішень. В багатьох випадках за рахунок використання їх різними проєктами, вони дають дуже хороше accuracy. Іноді вони до такого ступеня навчені, що тобі, щоб досягнути такої точності, треба витратити колосальні ресурси.
З чого почати свій шлях у Data Science?
Тут у Дмитра однозначна відповідь – теорія ймовірності і мат.статистика. До оптимізації (про яку згадував на вебінарі Тарас Фірман з ELEKS) Дмитро додав регуляризацію даних.
Коли приходить молодий спеціаліст, він не може охопити весь домен. Перше, що повинен вміти джуніор – продати свою здатність робити, тобто шукати рішення – продемонструвати здатність пошуку та вирішення завдань. А не суто технічні скіли.
Переглянути весь вебінар за участі Дмитра Пелешка можна тут!
Щиро дякуємо Дмитру Пелешку за час та досвід!
SQL.ua Data Academy
Advanced Data Teaching and Learning! 💎