○ 데이터웨어하우스(Datawarehouse)
정의 |
의사결정지원에 효과적으로 사용될 수 있도록 다양한 운영시스템으로부터 추출,변환,통합되고 요약된 읽기전용 DB |
특징 |
주제 중심적, 통합적, 시계열적, 비휘발성 데이터 |
차원
모델링
주요
용어 |
사실(Facts) |
° 사업의 특정 단면이나 활동을 수치로 표현한 값 |
|
차원(Dimensions) |
° 주어진 사실에 대한 추가적이 관점(View)을 제공하는 특성
° 한 개의 사실 테이블에 여러 차원 테이블이 연결되어 분석에 사용 |
계층성, 관계성 |
속성(Attributes) |
° 각 차원 테이블이 가지고 있는 속성
° 사실을 검색하고 여과하고 분류할 때 사용 |
본부,지점,영업소
년,월,일 |
계층(Hierarchies) |
° 차원내 존재하는 속성들간에 존재하는 속성
° Drill-down, Drill-up등 기능 이용 |
지점의 parent는 본부 | |
스키마
(Schema) |
|
Star Schema |
Snowflake Shema |
개념 |
° 다차원 의사결정 지원 데이터를 관계형 DB로 전환하는 데 사용되는 데이터 모델링 기법
° 데이터 모델의 한가운데 위치한 Fact table과 주위를 둘 러싼 많은 수의 Dimension table로 구성 |
° Star Schema의 차원 테이블을 정규화시킨 모델 |
장점 |
° 모델이 단순하여 이해가 용이
° 계층구조 정의가 쉽다(Meta data 단순)
° Join의 횟수를 줄여 응답성능의 향상° |
° 정규화를 통해 중복데이터를 줄이고 저장공간을 줄임
° 무결성 유지 용이
° 유연성 증가 |
단점 |
° 자료의 불일치, 중복문제
° 모델이 유연하지 못함
° 대량의 저장공간 요구
° 차원 테이블이 늘어나면 사실 테이블의 레코드가 기하급 수적으로 증가하며 검색속도가 저하됨 |
° 구조가 복잡해서 사용자 이해도가 떨어짐
° 차원 테이블의 크기는 일반적으로 작으므로 효과는 적음
° 오히려 검색속도를 떨어뜨리므로 사용에 주의 | |
ETT |
추출(Extraction) |
변환(Transformation) |
적재(Transportation) |
° 데이터웨어하우스에 저장될 데이터를 추출하는 과정 |
° 데이터의 형식, 내용을 정제하여 가치있는 데이터로 만드는 과정 |
° 검증 및 변환이 완료된 데이터를 데이 터베이스에 입력하고 색인(index)를 만드는 과정 |
° 초기적 추출(Migration)과 주기적 추출(Batch)이 필요
° 주기적 추출은 일반적으로 DB Log에서 변경된 사후 이미지를 추출함 |
° 데이터의 품질을 높이는 단계
° 필드 수준 가공
- 원본필드의 형태를 Datawarehouse의 형태에 맞게 변형
° 레코드 수준 가공
- Selection, Join, Aggregation기능을 이 용하여 레코드 집합을 수정 |
° 전체갱신과 부분갱신 방법이 있음
° 색인을 만들기 위해 비트맵 색인 방식 사용 | |