본문 바로가기

Data Engineering/Data Platform

빅데이터를 지탱하는 기술 - Chapter1 빅데이터의 기초 지식

[빅데이터를 지탱하는 기술 - Chapter1을 요약한 내용입니다]

[하둡이란]

imageimage
  • 기존 DW에서 적재/처리 모든 기능을 맡았다면, 하둡이 처리 프로세스 대신 부담해준다.

[데이터파이프라인의 구축]

image
  • ETL이란?
    • 데이터가 생성되고, 목적에 맞게 가공되어 적재되는 일련의 프로세스를 통틀어서 말한다.
    • 다양한 형태가 있지만 큰 틀에서는 간단하게 설명 할 수 있다.
      1. 데이터가 생성 혹은 가공 된다.
      2. 실시간으로 DB에 적재되거나, 일정량을 채운 후 적재 시킨다.
      3. 적재된 DB를 바로 사용하거나 DW등 더 큰 DB에 저장한다.
      4. 위 프로세스를 목적에 맞게 반복하거나, 데이터를 활용해 산출물을 낸다.
image
  1. 애드혹 분석 or 대시보드도구
    • DB에서 일회성 분석을 목적으로 데이터를 가져오거나, 대시보드 도구를 이용해서 정기적으로 가져온다.
  2. 데이터 마트 구축 후 BI툴과 연계
    • DB에서 목적에 맞게 데이터마트를 하나 더 만든 후, BI툴을 연계해서 작업한다.
  3. 배치처리 후 업무용 DB로 이동
    • DB에서 정기적으로 배치처리를 하여 업무에 활용되는 DB에 적재 시킨다.