July
5th,
2021
데이터 파이프라인
데이터를 생성해서 무사히 저장하기 까지의 과정을 데이터 파이프라인이라고 한다. 파이프라인을 크게 본다면 다음과 같다.
- 데이터 생성
- 데이터 수집
- 데이터 가공 후 저장(ETL)
- 데이터 시각화(BI)
데이터 생성
- 일반적으로 서비스 데이터는 파이프라인을 거치지 않는다.
- 로그와 같은 정보가 파이프라인을 사용한다.
데이터 수집
- 프론트에서 일어난 유저 행동은 데이터 분석 서비스 혹은 수집 서버로 전달되어 데이터 웨어하우스같은 저장소에 저장된다.
- 데이터 수집 서버를 통해 데이터를 가공하여 전달하기도 한다.
데이터 가공 후 저장(ETL)
- extract, transform, load
- extract: 데이터를 추출한다.
- transform: 추출한 데이터를 가공한다.
- load: 최종적으로 웨어하우스에 적재를 한다.
데이터 시각화(BI)
- R이나 SAS등의 통계 언어를 사용
- 혹은 시각화를 지원하는 프론트 도구들을 이용해 시각화