«Data Scientist – це той, хто у статистиці краще будь-якого software engineer, та у software engineering кращий будь-якого статистика», Josh Wills on Twitter.
Чи насправді дата-саєнс вмирає? В чому різниця між Data Scientist та Data Analytic або Machine Learning Engineer? Як стати вченим в галузі даних? Та чому не всі можуть? Що робить Data Scientist? Які навички потрібні дата-саєнтисту? Який кар’єрний шлях Data Scientist?… – Розібралися у трендах, визначеннях та як все виглядає на практиці.
У статті ми наводимо різні, популярні або обговорювані ідеї та підходи до визначень сутності Data Science, ролі дата-вченого та як це обґрунтовують. Є що доповнити? – залишайте Ваші коментарі до посту на нашій Facebook сторінці SQL.ua Data Academy.
Що таке “Data Science”?
Простими словами, Data Science – це про: у Вас є велика кількість даних, і Ви намагаєтеся витягти з них щось розумне і корисне для свого бізнесу або проєкту. Певні інсайти, патерни, тренди, кореляції, інше, що може дати так звану «business value» – додаткову цінність для організації по, наприклад, запуску нових продуктів та сервісів, оптимізації клієнтського досвіду… Ця частина Data Science є функцією «аналітика даних». Для її виконання ще не обов’язково треба бути дата-саєнтистом.
Data Science, починається там, де Вам необхідно створити гіпотезу, спрогнозувати певне явище, створити модель, яка дозволить перевірити гіпотезу та реалізувати конкретну бізнес-мету.
Data Science швидко розвивається у всіх галузях – виробництво, торгівля, логістика, банкінг, агросектор, healthcare, освіта, медіа, соціальні науки, тощо. Найкраще «середовище» для Data Science – це, звичайно, інтернет. Тут можна безкінечно збирати дані про будь-що і будь-кого у будь-який момент часу. Проте дата-саєнтисти працюють і з «внутрішніми» даними – дані, що накопичуються в конкретній організації.
Data Science – це про вивчення даних. В рамках цього процесу дані збираються (їх знаходять, здобувають, майнять…), аналізують, візуалізують, управлять, зберігають… І все це робиться з конкретною метою – покращити результат діяльності організації. Компанії, що основують свої рішення на висновках роботи з даними, сьогодні називаються «data-driven» (дані драйвять або провокують, є основою для прийняття рішень будь-якого масштабу такої компанії).
Наука про дані – дуже динамічна сфера. І самі люди, хто зайняті в ній професійно, говорять, що тут неможливо досягти «піку майстерності». Чому так? – По-перше, Data Science є потужним міксом різних дисциплін та технологій. І людина (дата-саєнтист) фізично не може бути спеціалістом у кожній з них на 100%.
Data Science багато в чому основується на статистиці (яку більшість вважає нудною просто «із-за поганого маркетингу» цієї дисципліни 😊). Наука про дані користується математикою та інформатикою (програмування).
Інша група причин стосується динамічного розвитку технологій та пришвидшення «старіння» інформації. В одному із джерел, що знайдете наприкінці статті, пишуть про такі дослідження:
Сьогодні приблизний «період напіввиведення» (“half-life”) інформації, пов’язаної з технологіями, становить ~ 4 роки. Отже, 50% речей, які ми сьогодні знаємо про ІТ, застаріють через ~ 4 роки. А то, може і швидше (ред.).
Технології, що розвиваються експоненціально (чим більше, тим ще більше), також потрошку «відбирають роботу» у дата-саєнтистів. Тому деякі фахівці говорять про «смерть Data Science» та професії. Принаймі, у тому вигляді, як ми знаємо їх зараз.
Сьогодні точно відомо, що Data Science робить дані кращими. Вчені по даним не просто аналізують або використовують їх. Вони ще покращують якість вже існуючих даних, що є однією із вимог сучасного бізнесу.
Data Science допомогла різним галузям автоматизувати зайві завдання. Чим, по іронії, сама собі «нашкодила» 😊. Тобто, частину роботи дата-саєнтиста також вже можуть виконувати машини.
Data Science робить продукти (чи то внутрішній бізнес-процес або front-end) – розумнішими.
Наука про дані також допомагає рятувати життя людей (прогнозування та раннє виявлення тяжких захворювань, створення нових способів лікування, тощо).
І (улюблене) – Data Science може зробити нас кращими людьми, дати новий рівень особистісного росту. Люди, зайняті в сфері науки про дані, мають інше мислення, орієнтоване на вирішення проблем, пошук варіантів «як»…
Data Science, крім вище згаданих наук, також поєднує ІТ та бізнес. Як пише один з авторів – «тут ви можете насолоджуватися кращим з обох світів».
Для розуміння та розвитку в Data Science обов’язковою буде робота з use-cases – реальним моделями та прикладами практичного застосування. Data Science – це про безкінечне тренування навичок на практиці.
Застосування дата-науки в організації також вимагає глибоких знань в конкретній доменній області (своїй галузі) – розуміння бізнес-моделей та бізнес-процесів, розуміння, як все це працює разом та «стиків» між процесами, розуміння, як конкретні КРІ (ключові показники ефективності) працюють у конкретній галузі, організації… на кожному рівні.
Ключові «претензії» до Data Science – це етика, пов’язана із «несанкціонованим» збиранням та часто «неетичним» використанням персональних та бізнес-даних. Саме тому, до прикладу, від великих соціальних мереж постійно вимагають прояснити принципи та алгоритми роботи з даними.
Хто такий “Data Scientist”?
Вчений в галузі даних. Але не у звичному нашому розумінні терміну «вчений». Зараз розберемося, чому.
Data Scientists є фахівцями з інтерпретації даних, але, як правило, мають і досвід кодування та математичного моделювання. Вони можуть виконувати роботу аналітика даних, але не навпаки.
Завдання вченого по даним – збирати та аналізувати дані, отримувати зрозумілі факти та ділитися цими ідеями/інсайтами зі своєю компанією. Він/вона обов’язково має знати, як будувати алгоритми, знаходити патерни, проектувати експерименти та ділитися результатами даних з членами команди у форматі, що зрозумілий усім стейкхолдерам, легко сприймається та засвоюється. Серед soft-skills вимагається комунікація, стресостійкість та в цілому розвинений емоційний інтелект.
Які навички та інструменти є обов’язковими для роботи Data Scientist:
Codding skills – вміє програмувати, добре володіє Python та SQL, іншими мовами за потреби.
- Mathematical/Statistical skills. До прикладу, знання про передові статистичні методи та концепції, включаючи регресію, властивості розподілів та статистичні тести. Також знадобиться математика (як будувати функції).
- Business skills – потрібні для правильної постановки завдання, формулювання «проблеми» та щоб запропонувати інструменти для її вирішення.
Дата-саєнтист, як правило, працює на перетині «кодування – математика/статистика – бізнес».
Чим критично важливим постійно замається Data Scientist? – Очищення даних (data cleaning). Є навіть такий жарт:
«80% Data Science – це очищення даних. І 20% – це скаржитися на очищення даних».
Що ще знадобиться вченому по даним для роботи:
- Навики аналізу даних (Data Analytics). Часто дата-саєнтистом стає дата-аналітик. Проте, не обов’язково. Історія, в тому числі серед наших Спікерів SQL.ua Data Academy), знає приклади, коли людина приходить в галузь із біології або хімії, фізики або астрономії… І це часто дуже успішні приклади Data Scientist.
- Прогнозна аналітика (Predictive Analytics) – використовує історичні дані, щоб передбачити майбутнє («що буде»).
- Машинне навчання (Machine Learning) – загальна назва всіх методів, за допомогою яких Ваш комп’ютер налагоджує статистичну модель і знаходить найкращі підходи для Вашого набору даних. Відмінність Data Scientist від Machine Learning Engineer тут буде в тому, що дата-саєнтист повинен володіти темою на рівні, щоб визначити – який саме підхід до машинного навчання застосувати у конкретному випадку. А вже інженер – бере модель у дата-саєнтиста та змушує її працювати у реальних умовах «на масштабі».
- Deep Learning – метод машинного навчання, який отримує вхідні значення і перетворює їх у вихідні значення після фільтрації через багато шарів, створюючи автоматичні кореляції. Пишуть, що це працює дуже подібно до мозку людини.
- Штучний інтелект (Artificial Intelligence) – коли машина здатна генерувати рішення, обробляючи величезні обсяги даних, що не піддаються людині. Ідуть дискусії, чи технології, які є зараз – це вже є «штучний інтелект». Ті, хто вважає, що Artificial Intelligence ще не існує, пояснюють це тим, що комп’ютер не може відтворити «опції» інтелекту людини, а саме – наслідувати творчість, інтуїцію, амбіції, натхнення чи що-небудь інше, що робить нас людьми. Ми, в Академії, вважаємо, що штучний інтелект є, і активно його обговорюємо з нашими Спікерами.
Плюс, кожного року з’являються додаткові вимоги до Data Scientist щодо знання певних технологій. У 2020 році (професійна дискусія в LinkedIn) додатково до перерахованих вище виділяють, як «буде перевагою»:
- Blockchain;
- Cloud Computing;
- UX Design;
- Affiliate Marketing;
- Sales;
- Scientific Computing;
- Video Production.
На завершення рубрики тут варто знову згадати про необхідні soft–skills: креативність, здатність переконувати, співпраця, здатність швидко адаптуватися, емоційний інтелект, візуалізація, презентація та розвинена здатність storytelling.
Хочете розібратися більш детально та почути відповіді кращих професіоналів – реєструйтеся на безкоштовний вебінар Data Talks #6 у четвер, 25.06 – «Introduction to Data Science».
Чому дата-саєнтисти такі цінні?
Як і в усьому іншому – цінне те, чого мало, що в дуже обмеженій кількості, де попит значно перевищує пропозицію. У звіті LinkedIn Workforce Report for the US говорять, що «попит на Data Scientists не вміщується у діаграми». На 2018 рік, дефіцит людей з навичками Data Scientist у США складав 151 717 людей.
Чому вчених в галузі даних мало, якщо всі знають, що вони затребувані (та їх робота гарно компенсується)? – Вивчити Data Science непросто. Один із авторів у списку джерел (Tomi Mester) так описав проблематику: «багато хто фліртує з вивченням Data Science, проте лише дуже мала кількість людей стає справжніми вченими в галузі даних».
Одна з причин – помилкові очікування від професії та галузі в цілому. Купа привабливих і, як називає їх автор, «шахрайських статей», описують Data Scientist зовсім не так, як є насправді. Коли людина зустрічається із складними реаліями ролі Data Scientist, то часто втрачає мотивацію (і виходить з галузі).
Вивчати Data Science непросто. Знадобиться багато працювати, багато енергії та часу (від нуля до junior рівня, по деяких оцінках, це займе приблизно 6-9 місяців). Тому оголошення на кшталт «вивчи … за 1 місяць легко» – це, м’яко кажучи, не зовсім правда.
«Вивчати Data Science» – це «Вдосконалювати свої Data Science навички». Це практика та безперервне навчання. Неможливо «один раз і назавжди» вивчити науку про дані.
Вивчити Data Science складно, але це дуже хороша інвестиція. Не всім вистачить мотивації «йти до кінця», тому пропозиція така невелика. А, як відомо, те, чого мало, дороге та бажане!
Data Scientists – куди ростуть, і який у них кар’єрний шлях?
В одному із джерел, розглядаючи кар’єрний шлях (career pass) дата-саєнтиста, пропонують подивитися на нього по чотирьох векторах, і по кожному буде свій шлях, свої вимоги до росту:
- Розвиток як Data Leader;
- Engineering;
- Business;
- Product.
Кожен із векторів важливий і перспективний.
«Смерть Data Science»?
Деякі автори закидають, що професія вченого даних скоро або перестане існувати, або сильно трансформується. Основні аргументи тут:
- Workflow Automation – поява рішень «під ключ» для управління інфраструктурою та автоматизація багатьох етапів роботи з даними та бізнес-процесами.
- Data Products Development – продукти, до прикладу, CRM-системи, сильно пішли вперед та вже мають вбудовані можливості сегментації, прийняття рішення, рекомендаційні механізми, автоматизоване АВ тестування…
- Higher Value Will Be Needed – враховуючи два попередніх пункту, Data Scientists будуть рухатися до роботи з більшою доданою цінністю, у напрямі Стратегій.
***
Аналіз трендів показує, що на наш вік роботи для Data Scientists вистачить!
Хочете рухатися в цьому напрямі – Приєднуйтеся, і підемо разом!
Щиро дякуємо за увагу!
#SQLua_DataAcademy
Advanced Data Teaching and Learning!
***
Джерела та інші матеріали по Data Science:
Data Analyst vs. Data Scientist
Machine Learning Engineer vs. Data Scientist
Data Science Career Path & Progression
Why Choose Data Science for Your Career