안녕하세요, 

베스핀글로벌 GCP Support팀입니다.


이번 아티클에서는 주제로 "Composer Airflow의 메타데이터 수집 방법"을 다루고자 합니다.



Composer Airflow 메타데이터 수집


Composer의 Airflow 데이터베이스의 메타데이터는 아래 아키텍처 이미지에 보이는 대로 구글이 관리하는 테넌트 프로젝트의 관리형 DB인 Cloud SQL 인스턴스에 저장 됩니다.

Airflow 스케줄러 및 작업자는 Cloud SQL 프록시 인스턴스를 통해 Airflow 데이터베이스와 통신합니다.

※ 자체 데이터베이스를 Airflow 메타데이터 데이터베이스로 사용할 수 없습니다.

Cloud Composer는 데이터 손실 가능성을 최소화하기 위해 Airflow 메타데이터를 매일 백업합니다.



따라서 테넌트 프로젝트의 SQL 인스턴스로부터 메타데이터를 가져와야 합니다.

메타데이터를 수집하기 위해 구글에서 제안하는 방법은 데이터베이스의 덤프 파일을 생성한 후 GCS 버킷으로 전송하는 방법입니다.


자세한 방법은 아래 순서와 같습니다.

  1. Airflow 웹 인터페이스에 접속하여 관리 > 구성으로 이동하여 데이터베이스 연결 매개변수를 가져옵니다.
  2. 콘솔 상의 Kubernetes Engine > 서비스 및 인그레스로 이동하여 데이터베이스 엔드포인트 IP를 확인합니다.
  3. SQL 데이터베이스와 연결할 VM 인스턴스를 생성하고 SQL 클라이언트 패키지를 설치 후 데이터베이스에 연결합니다.
  4. 데이터베이스 콘텐츠로 덤프파일을 생성한 뒤 버킷으로 전송합니다.



참조 링크


[1] Cloud Composer Airflow 데이터베이스에 액세스

https://cloud.google.com/composer/docs/access-airflow-database



관련 문의사항이 있으시면 Support Portal에 문의해 주시기 바랍니다.


감사합니다.