使用气流,我从MySQL数据库中提取数据,用python转换它并将其加载到Redshift集群中.
目前我使用3个气流任务:它们通过在本地磁盘上写入CSV来传递数据.
如果不写入磁盘我怎么能这样做?我应该在python中编写一个大任务吗?(这会降低能见度)
编辑:这是一个关于Airflow的问题,以及选择任务粒度以及如何在它们之间传递数据的最佳实践.这不是关于数据迁移或ETL的一般问题.在这个问题中,ETL仅用作气流任务的工作量的例子.