Оркестрация сценариев ETL
Иногда Airflow называют ETL-инструментом, но это не совсем ETL в классическом его понимании. Airflow – это оркестратор: он сам не выполняет тяжелую работу по перекладке и обработке данных, а говорит другим системам и фреймворкам, что надо делать, и следит за статусом выполнения. Попадая на главную страницу, мы видим список DAGов (Directed Acyclic Graph), и набор данных по ним.

Сверху представленны глобальные фильтры, по всем DAGам, по активным и поставленным на паузу. По каждому DAGу отображается следующая информация:
-
id DAGа и его тэги
-
владелец DAGа
-
статус всех запусков, может быть: в очереди/выполнен/выполняется/неудачный запуск
-
расписание запуска
-
дата последнего запуска
-
дата следующего запуска
-
статус задач всех активных запусков DAGА, или из последнего если задачи не активны
-
возможные действия над DAGом
-
переход на более детальную работу с DAGом
Для мониторинга и работы с DAGами представлены инструменты, доступные в меню Browse:
-
В DAG runs можно посмотреть логи запуска всех DAGов. В Jobs можно просмотреть логи выполнения составных узлов DAGов - задач.
-
Audit Logs – таблица логов.
-
Task Instances создается экземпляр задачи. Экземпляр задачи — это конкретный запуск этой задачи для данного DAGа (и, следовательно, для заданного интервала данных).
-
List Task Reschedule – список перенесенных задач.
-
List Trigger – список триггеров. Триггеры – это небольшие асинхронные фрагменты кода Python, предназначенные для совместного запуска в одном процессе Python; поскольку они асинхронны, они могут эффективно сосуществовать.
-
List Sla Miss – список пропущенных SLA, для реагирования на задачи которые не отработали вовремя.
-
DAG Dependencies – визуализация зависимости DAGов.