Ihar Rubanau: «Намагався вирватися з Data Science та не вийшло!»

Ігор Рубанов (Ihar Rabanau), Singularist, Data Scientist у N-iX – бере участь у цікавих технологічних проєктах, використовує мультидисциплінарний підхід, вірить у симбіоз «Human-Machine» як майбутнє для застосування Data Science. На вебінарі Data Talks #6 Ігор поділився досвідом та порадив, куди рухатися, щоб бути актуальними у світі, де всі працюють з даними. Переглянути подію у записі можна тут.

Як Ігор потрапив у Data Science та які проєкти виконував?

На відміну від інших Спікерів (Data Talks #6), не «прийшов у Data Science», а навпаки, за словами самого Ігоря, намагався з неї вирватися. І не вийшло. (Тому нам пощастило сьогодні дізнаватися про цікаві проєкти та неординарні думки – ред.)).

Ігор вчився на автоматизовані системи обробки інформації. По суті, це є прототип Data Science. Весь час (15 років в науці про дані та 10+ в ІТ) проєкти були пов’язані із prediction та рекомендаційними системами. Спікер відмітив, що за останні років 5 напрям дата-саєнсу сильно змінився. Професійний профіль Ihar Rubanau.

Серед цікавих проєктів – участь у рішенні для dating (індустрія організації побачень). Ігор поділився, що більшість людей, коли приходять на сайт знайомств, не ведуть себе звичайним чином. Всі намагаються знайти кращий варіант. Тому було цікаво моделювати поведінкові ситуації, дізнатися «внутрішню кухню» домену dating. Ігор розповів, що дейтінг мало чим відрізняється від будь-якого іншого еко-місця (як кава-шоп або магазин квітів). В принципі, таку модель можна замовляти як франшизу.

Більшість стартапів, які починали в 2000-х, все робили «на колінках», щось писали в Excel. Потім, коли проєкт розростався, і задачі «виходили за рівень калькулятора», то всі вже хотіли (і стало модно) розвивати data science, AI (штучний інтелект)…

Сьогодні більша частина проєктів у Data Science – це про побудувати робочу pipeline, щоб дані збиралися, щоб модель працювала, візуалізувалася і до менеджменту доходили результати, і все це разом працювало.

Що потрібно вивчити для кар’єри у Data Science?

Якщо Ви – джуніор, Ігор би рекомендував спочатку вивчити R (хоча інші Спікери того ж вебінару були за Python). Зараз для R з’явилися можливості для початківців спробувати багато речей, простішим способом.

В цілому, початок руху у напрямі Data Science буде сильно залежати від того, який у людини бекграунд. Неможливо вивчити все на 100% – ні математику, ні програмування, ні бізнес-процеси.

Ігор Рубанов вважає, що у реальному світі треба підходити до всього у «Lego-стилі», намагатися вчити якісь блоки з різних тем (збирати свій потрібний конструктор).

«Я не знаю, кому зараз потрібна pure (чиста) Data Science. Всі хочуть, щоб їм вирішили бізнес-проблему. А як це буде зроблено – замовнику все одно, який Ви будете застосовувати алгоритм… Бізнес, за рідким виключенням, це не цікавить».

Якщо хочеш себе гарно «продати», то треба показати, що ти smart та готовий/готова вчитися. Що ти розумієш концепт, структуру, як працює весь проєкт – де замовник, де дата-інженери, де дані, тобто весь цикл проєкту. І тоді джуніор може вчитися від мідлів та сіньйорів, вони допоможуть у складних моментах.

Тоді можна вибудовувати свою спеціалізацію – що тобі більше подобається: ETL (Extract, Transform, Load – процес, який використовується у базах та сховищах даних), або більше працювати з даними, тримати якийсь лот…, або робити моделі, чи візуалізувати і «витончено» представляти дані, працювати з ВІ. Раніше це було єдине ціле, зараз можна вибрати ті задачі з Data Science, які найбільше подобаються.

Про сингулярність та улюблені пет-проєкти Ігоря

Ред.: Сингулярність (технологічна, Wikipedia) – гіпотетичне вибухоподібне зростання швидкості науково-технічного прогресу, яке ймовірно послідує за створенням artificial intelligence і машин, здатних до самовідтворення, інтеграції людини з обчислювальними машинами або значного збільшення можливостей людського мозку за рахунок біотехнологій. Як писали вище, Ігор Рубанов вірить у «Human-Machine» симбіоз та на вебінарі поділився прикладами технологій по темі.

Один із пет-проєктів розпочався на продовження навчання. Приблизно у 2010 році, коли Ігор вже вивчав теорію хаосу та «передивися всю математику», з’явилися самі прості «100-доларові» девайси, які дозволяють зчитувати електроенцефалограму (графік електричної активності головного мозку) на рівні пікселів – чи людина радіє, або ні, медитує… Виявилося, що на стан можна впливати, тому що мозок – теж високоадаптивна мережа. Його можна швидко навчати. Виникла ідея по аналогії з комп’ютерною мишкою – використовуючи ті самі два індекси, можна впливати на «програму» і без мишки.

Маючи інноваційну ідею та розуміння технології, подалися на стартап у Чилі. Та були прийняті! Ігор так розповідає про проєкт:

«Нас взяли в інший світ! Доречи, Чилі якраз під Україною знаходиться. І хоча проєкт не вдалося комерціалізувати, відлуння є до сих пір».

Людям, які займаються brain-фітнесом, створені в рамках проєкту девайси допомагають медитувати. Також вони є корисні для боротьби із синдромом дефіциту уваги.

До гаджету також намагалися підключити VR (віртуальна реальність). Але з цим виявилося складніше. Навіть великі бренди, як Google та Facebook, до сих пір так і не підключили VR.

«Ми намагалися зробити ВР-окуляри. І це був чудовий момент! Коли ти силою думки можеш, до прикладу, переключати музику».

Інший приклад технологій, про які говорив Спікер – міні-роботи, у яких є камера, звук і простенька нейронна мережа. З одного боку, це проста іграшка, з іншого – якщо ти під’єднуєшся до нього через якийсь інтерфейс, то виходить extended Human-Machine симбіоз.

Про AutoML рішення, де є готові моделі для доменів

Коли Ігор випускався у 2003-му, то сам писав нейронну мережу на С#, тому що її ніде не було. А зараз можна зробити, що завгодно у «три строчки».

У AutoML гарний маркетинг, але в реальності треба розуміти, що вони напівпорожні. Це не (повністю) автоматизоване рішення. У поганих руках – це цеглина, у гарних – це швейцарський ніж.

До того ж, щоб працювати з такими рішеннями, потрібно знати багато деталей. Ігор навів приклад Azure, вивчення якого сам робив «у три підходи».

Всі моделі, починаючи від лінійної регресії до самої складної нейронної мережі все одно вимагають від аналітика, від людини вибрати певний параметр на основі її досвіду. Завжди. До прикладу, у кластеризації ти повинен обрати кількість кластерів і т.д.

«У сучасному світі буде з’являтися все більше таких систем. Але я би ставив на Human–Machine симбіоз».

Чим далі, бізнес все гірше розуміє, що робить Data Science. Вони все більше віддалені, вони чують весь цей хайп, а потім купують AutoML системи, і виявляється, що система хороша, але вона для інших задач. Просто вони не розібралися до кінця.

Також важливо розуміти, що не всі задачі потребують використання АІ (штучного інтелекту). Деякі вимагають просто автоматизованого розрахунку показників.

З чого розпочати у Data Science зараз?

Інновації будуть у всіх сферах. Нещодавно Ігор знову підписався на новини нанотехнологій. Говорить: «Ви не повірите, скільки всього вони кожного дня відкривають. Те саме стосується медицини, aerospace та інших».

Ігор Рубанов впевнений, що у найближчому майбутньому всі будуть операторами ЕОМ. Data Science буде у кожній сфері. І ті, хто не буде діяти у цьому напрямі, просто загубляться. Сьогодні, на думку Спікера, треба вчити все підряд.

Якщо Ви математик – вчіть програмування. Якщо програміст – зверніть увагу на математику. Якщо і те, і те знаєте – ідіть прямо у Data Science.

«Якщо Ви власник кава-шопу або квіткового магазину – я Вам теж рекомендую знайти свою нішу. Люди змінюються, як і їх поведінка. Якщо Ви будете перші, хто їх зрозуміє, то зможете досягти успіху. А якщо ти не розумієш, що відбувається, то скоро загубишся в цьому світі».

Хочете дізнатися більше? – Запрошуємо переглянути повне відео події на каналі SQL.ua Data Academy.