Оркестрация сценариев ETL
Иногда Airflow называют ETL-инструментом, но это не совсем ETL в классическом его понимании. Airflow – это оркестратор: он сам не выполняет тяжелую работу по перекладке и обработке данных, а говорит другим системам и фреймворкам, что надо делать, и следит за статусом выполнения. Попадая на главную страницу, мы видим список DAGов (Directed Acyclic Graph), и набор данных по ним.
Сверху представленны глобальные фильтры, по всем DAGам, по активным и поставленным на паузу. По каждому DAGу отображается следующая информация:
id DAGа и его тэги
владелец DAGа
статус всех запусков, может быть: в очереди/выполнен/выполняется/неудачный запуск
расписание запуска
дата последнего запуска
дата следующего запуска
статус задач всех активных запусков DAGА, или из последнего если задачи не активны
возможные действия над DAGом
переход на более детальную работу с DAGом
Для мониторинга и работы с DAGами представлены инструменты, доступные в меню Browse:
В DAG runs можно посмотреть логи запуска всех DAGов. В Jobs можно просмотреть логи выполнения составных узлов DAGов - задач.
Audit Logs – таблица логов.
Task Instances создается экземпляр задачи. Экземпляр задачи — это конкретный запуск этой задачи для данного DAGа (и, следовательно, для заданного интервала данных).
List Task Reschedule – список перенесенных задач.
List Trigger – список триггеров. Триггеры – это небольшие асинхронные фрагменты кода Python, предназначенные для совместного запуска в одном процессе Python; поскольку они асинхронны, они могут эффективно сосуществовать.
List Sla Miss – список пропущенных SLA, для реагирования на задачи которые не отработали вовремя.
DAG Dependencies – визуализация зависимости DAGов.