Data Engineering on Microsoft Azure
Викладач та куратор курсу:
Тарас Кльоба
Тарас Кльоба
СЕО SQL.ua, DataMatrix CTO у EveryMatrix, Засновник SQL.ua Data Academy. Детально про досвід Тараса тут
Загальна інформація
- У цьому курсі студенти дізнаються про моделі та практики інженерії даних стосовно роботи з аналітичними рішеннями пакетного та реального часу з використанням технологій платформи даних Azure. Студенти почнуть з розуміння основних технологій обчислень та зберігання даних, які використовуються для створення аналітичних рішень. Потім вони вивчать, як проектувати аналітичні обслуговуючі шари та зосередяться на питаннях інженерії даних для роботи з вихідними файлами. Студенти дізнаються, як інтерактивно досліджувати дані, що зберігаються у файлах в озері даних. Вони вивчать різні методи введення даних, які можна використовувати для завантаження даних за допомогою можливостей Apache Spark в Azure Synapse Analytics або Azure Databricks або як вводити дані за допомогою конвеєрів Azure Data Factory або Azure Synapse. Студенти також дізнаються про різні способи перетворення даних за допомогою тих самих технологій, що використовуються для введення даних. Студенти витрачають час на вивчення того, як відстежувати та аналізувати продуктивність аналітичної системи, щоб вони могли оптимізувати продуктивність завантаження даних або запитів, що видаються на системи. Вони зрозуміють важливість впровадження безпеки для забезпечення захисту даних у стані спокою або транспортування. Потім студент покаже, як дані в аналітичній системі можуть бути використані для створення інформаційних панелей або створення прогнозних моделей в Azure Synapse Analytics.
Для кого цей курс?
Основна аудиторія цього курсу – фахівці з даних, архітектори даних та фахівці з бізнес-аналітики, які хочуть дізнатися про інженерію даних та створення аналітичних рішень з використанням технологій платформи даних, що існують у Microsoft Azure. Вторинна аудиторія цього курсу – аналітики даних та фахівці з аналізу даних, які працюють з аналітичними рішеннями, побудованими на базі Microsoft Azure.
Цілі курсу
- Вивчити варіанти обчислень та зберігання даних для інженерних робочих завдань в Azure
- Розробка та впровадження обслуговуючого рівня
- Розуміння завдань, пов’язаних з інженерією даних
- Виконання інтерактивних запитів із використанням безсерверних SQL-пулів
- Дослідження, перетворювання та завантаження даних у сховище даних за допомогою Apache Spark.
- Сховище даних за допомогою Apache Spark
- Виконуйте дослідження та перетворення даних в Azure Databricks
- Введення та завантаження даних у сховище даних
- Перетворення даних за допомогою Azure Data Factory або Azure Synapse Pipelines
- Інтеграція даних з блокнотів за допомогою Azure Data Factory або Azure Synapse Pipelines
- Оптимізація продуктивності запитів за допомогою виділених пулів SQL в Azure Synapse
- Аналіз та оптимізація сховищ даних
- Підтримка гібридної транзакційної аналітичної обробки (HTAP) за допомогою Azure Synapse Link
- Забезпечення наскрізної безпеки за допомогою Azure Synapse
- Аналітика
- Виконання потокової обробки в реальному часі за допомогою Stream Analytics
- Створення рішення для обробки потоків за допомогою концентраторів подій та Azure Databricks
- Створення звітів за допомогою інтеграції Power BI із Azure Synapase Analytics
- Виконання інтегрованих процесів машинного навчання Azure Synapse Analytics
Програма курсу:
Модуль 1
Вивчення можливостей обчислень та зберігання даних для інженерних робочих завдань
– Введення в Azure Synapse Analytics
– Опис Azure Databricks
– Введення у сховище Azure Data Lake
– Опишіть архітектуру Delta Lake
– Робота з потоками даних за допомогою Azure Stream Analytics
Модуль 2
Розробка та реалізація обслуговуючого рівня
– Розробка багатовимірної схеми для оптимізації аналітичних робочих навантажень
– Трансформація без коду в масштабі за допомогою Azure Data Factory
– Наповнення вимірювань, що повільно змінюються, в Azure Synapse
– Аналітичні конвеєри
Модуль 3
Обробка даних для вхідних файлів
– Проектування сучасного сховища даних за допомогою Azure Synapse
– Аналітика
– Захист сховища даних в Azure Synapse Analytics
– Керування файлами в Azure data lake
– Захист файлів, що зберігаються в Azure data lake
Модуль 4
Виконання інтерактивних запитів за допомогою Azure Synapse. Аналітичні безсерверні SQL-пули
– Вивчення можливостей безсерверних SQL-пулів Azure Synapse
– Отримання данних в Axure data lake за допомогою Azure Synapse юезсерверних SQL-пулів
– Створення об’єктів метаданих в Azure Synapse serverless SQL-пулах
– Захист даних та керування користувачами в Azure Synapse безсерверних SQL-пулах
Модуль 5
Дослідження, зміна та завантаження данних у сховище даних за допомогою Apache Spark
– Обробка великих даних за допомогою Apache Spark Azure Synapse Analytics
– Завантаження даних за допомогою блокнотів Apache Spark в Azure Synapse Analytics
– Перетворення даних за допомогою DataFrames в пулах Apache Spark в Azure Synapse Analytics
– Інтеграція пулів SQL та Apache Spark в Azure Synapse Analytics
Модуль 6
Дослідження та перетворення даних в Azure Databricks
– Опис Azure Databricks
– Зчитування та запис даних в Azure Databricks
– Робота з DataFrames в Azure Databricks
– Робота з розширеними методами DataFrames в Azure Databricks
– Використання DataFrames в Azure Databricks для аналізу та фільтрації даних
– Кешування DataFrame для прискорення наступних запитів
– Видалення дублікатів даних
– Маніпулювати значеннями дати/часу
– Видаляти та перейменовувати стовпців DataFrame
– Агрегувати даних, що зберігаються в DataFrame
Модуль 7
Введення та завантаження даних у сховище даних
– Використання кращих практик завантаження даних в Azure Synapse аналітика
– Введення даних у масштабі петабайту за допомогою Azure Data Factory
Модуль 8
Перетворення даних за допомогою Azure Data Factory або Azure Synapse Pipelines
– Інтеграція даних із Azure Data Factory або Azure Synapse Pipelines
– Трансформація без коду в масштабі за допомогою Azure Data Factory або Azure Synapse Pipelines
Модуль 9
Організація, переміщення та перетворення даних у конвеєрах Azure Synapse Pipelines
– Організація переміщення та перетворення даних в Azure Data Factory
Модуль 10
Оптимізація продуктивних запитів за допомогою виділених SQL-пулів в Azure Synapse
– Оптимізація продуктивності запитів до сховища даних в Azure Synapse Analytics
– Розгляд можливостей Azure для розробників сховищ даних Synapse Analytics
Модуль 11
Аналіз та оптимізація сховищ даних
– Аналіз та оптимізація зберігання сховищ даних в Azure Synapse Analytics
Модуль 12
Підтримка гібридної транзакційної аналітичної обробки (HTAP) за допомогою Azure Synapse Link
– Розробка гібридної транзакційної та аналітичної обробки за допомогою Azure Synapse Analytics
– Налаштування Azure Synapse Link із Azure Cosmos DB
– Запити до Azure Cosmos DB за допомогою пулів Apache Spark
– Запити до Azure Cosmos DB за допомогою безсерверних SQL-пулів
Модуль 13
Комплексна безпека з Azure Synapse аналітика
– Захист сховища даних в Azure Synapse Analytics
– Налаштування та керування секретними данними в Azure Key Vault
– Впровадження контролю для конфіденційних даних
Модуль 14
Обробка потоків у реальному часі за допомогою Stream Analytics
– Забезпечення надійної передачі повідомлень для програм Великих даних
за допомогою концентраторів подій Azure Event Hubs
– Робота з потоками даних за допомогою Azure Stream Analytics
– Завантаження потоків даних за допомогою Azure Stream Analytics
Модуль 15
Створення рішення для обробки потоків за допомогою Event Hubs та Azure Databricks
– Обробка потокових даних за допомогою структурованих Azure Databricks потоків
Модуль 16
Побудова звітів за допомогою інтеграції Power BI з Azure Synapse Analytics
– Створення звітів за допомогою інтеграції Power BI з Azure Synapse Analytics
Модуль 17
Використання інтегрованого машинного навчання в Azure Synapse Analytics
– Використання інтегрованого процесу машинного навчання в Azure Synapse Analytics