[빅데이터를 지탱하는 기술 - Chapter1을 요약한 내용입니다]
[하둡이란]


- 기존 DW에서 적재/처리 모든 기능을 맡았다면, 하둡이 처리 프로세스 대신 부담해준다.
[데이터파이프라인의 구축]

- ETL이란?
- 데이터가 생성되고, 목적에 맞게 가공되어 적재되는 일련의 프로세스를 통틀어서 말한다.
- 다양한 형태가 있지만 큰 틀에서는 간단하게 설명 할 수 있다.
- 데이터가 생성 혹은 가공 된다.
- 실시간으로 DB에 적재되거나, 일정량을 채운 후 적재 시킨다.
- 적재된 DB를 바로 사용하거나 DW등 더 큰 DB에 저장한다.
- 위 프로세스를 목적에 맞게 반복하거나, 데이터를 활용해 산출물을 낸다.

- 애드혹 분석 or 대시보드도구
- DB에서 일회성 분석을 목적으로 데이터를 가져오거나, 대시보드 도구를 이용해서 정기적으로 가져온다.
- 데이터 마트 구축 후 BI툴과 연계
- DB에서 목적에 맞게 데이터마트를 하나 더 만든 후, BI툴을 연계해서 작업한다.
- 배치처리 후 업무용 DB로 이동
- DB에서 정기적으로 배치처리를 하여 업무에 활용되는 DB에 적재 시킨다.
'Data Engineering > Data Platform' 카테고리의 다른 글
빅데이터를 지탱하는 기술 - Chapter6 빅데이터 분석 기반의 구축 (0) | 2021.12.20 |
---|---|
빅데이터를 지탱하는 기술 - Chapter5 빅데이터의 파이프라인 (0) | 2021.12.16 |
빅데이터를 지탱하는 기술 - Chapter4 빅데이터의 축적 (0) | 2021.12.16 |
빅데이터를 지탱하는 기술 - Chapter3 빅 데이터의 분산 처리 (0) | 2021.12.16 |
빅데이터를 지탱하는 기술 - Chapter2 빅데이터의 탐색 (0) | 2021.12.16 |