정의 |
° 대용량 데이터집합(DW,웹로그)에서 아직 알려지지 않은 적합하고 종합적이며 실행 가능한 정보를 추출하고, 이를 사업의 핵심적인 의사결정에 활용하는 과정 |
기능 |
° 검증 : 사용자 시스템이 가설을 입증
° 발견 : 시스템이 자율적으로 새로운 패턴을 발견
° 예측 : 미래의 패턴 예측
° 묘사 : 사용자가 이용가능한 형태로 표현 |
특징 |
° 지식 집약적
° 3I 모델링 프로세스 - 반복적 분석(Iterative), 대화식 처리(Interactive), 증가치 방식(Incremental)
° 귀납적 결과에 초점 |
과정 |
샘플링(Sampling/Selecting) |
° 방대한 데이터로부터 모집단 유형과 비슷한 작은 양의 데이터 추출 |
데이터정제/전처리(Data Cleaning/Preprocessing) |
° 데이터의 일관성을 위해 오류제거 등의 데이터 무결성, 질 관리, 역정규화 |
탐색/변형(Exploration/Transformation) |
° 수많은 변수들의 관계를 살펴보는 단계 |
모델링(Modeling) |
° 선정된 주요한 변수들로 다양한 모형을 접합해보는 단계 |
레포팅(Reporting/Visualization) |
° 사용자에게 편하고 이해하기 쉬운 형태로 표현 | |
기법 |
링크분석 |
연관성탐사
(Association) |
° 동시 발생 트랜잭션의 연관관계
° 맥주와 기저귀 구입
지지도 |
° S = P(X∩Y)
° 전체거래 중에서 항목X와 항목Y를 동시에 포함하는 거래가 어느 정도 인가를 의미함 |
신뢰도 |
° C = P(Y|X) = P(X∩Y)/P(X)
° 항목X를 포함하는 거래 중에서 항목Y가 포함될 확률 | |
연속성탐사
(Sequence) |
° 시간이 경과에 따른 패턴 분석
° 새차 구입후 캠핑장비 구입 |
분류탐사(Classification) |
° 이미 알려진 그룹의 특징을 부여
° 어떤 범주에 근거해 사전에 정의된 분류를 구분하는데 사용됨
° 소득액이 일정액 이상이고 거주지에 따라 고객등급 부여 |
군집탐사(Clustering) |
° 유사한 특성을 지닌 데이터의 그룹을 분류하여 패턴을 분석
° 20대 후반의 여자와 30대 초반의 남자는 스포츠카를 선호한다 |
추정(Estimate) |
° 회귀분석
° 주가나 매출액같은 연속된 결과를 예측하는 기법 |
의사결정트리(Decision Tree) |
° 분류(Classification)와 예측(Prediction)에 따라 알고리즘 트리를 운행
° 의사결정 과정을 직관적으로 제공 |
기억기반추론(MBR) |
° 모르는 실례들을 예측하기 위하여 모델에 알려진 실례들을 사용함
° 거리함수와 조합함수가 기억기반추론의 주요 구성요소임 |
신경망(Neural network) |
° 학습을 통해 분류와 예측을 위한 패턴을 일반화
° 데이터 형태가 없고 뚜련한 패턴이 없을 때 유용
° 결론 도달 과정이 블랙박스 |
K-nearest neighbor |
° 기본적인 분류 알고리즘으로 임의의 점과 가까운 k개의 점을 이용하여 임의의 점과 이산적인 값 또는 연속적인 변수를 산정하는 방법 | |
비교 |
|
OLAP |
Data Mining |
정보요구 |
전사적으로 무슨(What)일이 발생했는가? |
왜(Why) 이런일이 발생했는가를 기반으로 미래예측 |
구체화정도 |
요약데이터 수준 |
상세한 트랜잭션 수준의 데이터 |
차원의 수 |
차원들의 수가 제한적 |
차원들의 수가 방대함 |
차원속성의 수 |
적은수의 속성들 |
많은 속성들 |
분석접근방법 |
사용자주도(User Driven)/대화식분석(Interactive) |
데이터주도(Data Driven)/자동지식발견 |
분석기법 |
다차원적, Slice&Dice, Drill-Up/Down.. |
데이터 추출, 정제, 변환, 모델링, 예측 |
현기술 수준 |
성숙되고 널리 사용됨 |
계속적으로 성장중인 기술 | |