데이터 파이프라인

데이터를 생성해서 무사히 저장하기 까지의 과정을 데이터 파이프라인이라고 한다. 파이프라인을 크게 본다면 다음과 같다.

  1. 데이터 생성
  2. 데이터 수집
  3. 데이터 가공 후 저장(ETL)
  4. 데이터 시각화(BI)

데이터 생성

  • 일반적으로 서비스 데이터는 파이프라인을 거치지 않는다.
  • 로그와 같은 정보가 파이프라인을 사용한다.

데이터 수집

  • 프론트에서 일어난 유저 행동은 데이터 분석 서비스 혹은 수집 서버로 전달되어 데이터 웨어하우스같은 저장소에 저장된다.
  • 데이터 수집 서버를 통해 데이터를 가공하여 전달하기도 한다.

데이터 가공 후 저장(ETL)

  • extract, transform, load
  • extract: 데이터를 추출한다.
  • transform: 추출한 데이터를 가공한다.
  • load: 최종적으로 웨어하우스에 적재를 한다.

데이터 시각화(BI)

  • R이나 SAS등의 통계 언어를 사용
  • 혹은 시각화를 지원하는 프론트 도구들을 이용해 시각화