IT 이야기/데이터베이스

데이터마이닝

필넷 2007. 10. 16. 15:24
반응형

데이터마이닝(Data Mining)

정의

° 대용량 데이터집합(DW,웹로그)에서 아직 알려지지 않은 적합하고 종합적이며 실행 가능한 정보를 추출하고, 이를 사업의 핵심적인 의사결정에 활용하는 과정

기능

° 검증 : 사용자 시스템이 가설을 입증
° 발견 : 시스템이 자율적으로 새로운 패턴을 발견
° 예측 : 미래의 패턴 예측
° 묘사 : 사용자가 이용가능한 형태로 표현

특징

° 지식 집약적
° 3I 모델링 프로세스 - 반복적 분석(Iterative), 대화식 처리(Interactive), 증가치 방식(Incremental)
° 귀납적 결과에 초점

과정

샘플링(Sampling/Selecting)

° 방대한 데이터로부터 모집단 유형과 비슷한 작은 양의 데이터 추출

데이터정제/전처리(Data Cleaning/Preprocessing)

° 데이터의 일관성을 위해 오류제거 등의 데이터 무결성, 질 관리, 역정규화

탐색/변형(Exploration/Transformation)

° 수많은 변수들의 관계를 살펴보는 단계

모델링(Modeling)

° 선정된 주요한 변수들로 다양한 모형을 접합해보는 단계

레포팅(Reporting/Visualization)

° 사용자에게 편하고 이해하기 쉬운 형태로 표현

기법

링크분석

연관성탐사
(Association)

° 동시 발생 트랜잭션의 연관관계
° 맥주와 기저귀 구입

지지도

° S = P(X∩Y)
° 전체거래 중에서 항목X와 항목Y를 동시에 포함하는 거래가 어느 정도 인가를 의미함

신뢰도

° C = P(Y|X) = P(X∩Y)/P(X)
° 항목X를 포함하는 거래 중에서 항목Y가 포함될 확률

연속성탐사
(Sequence)

° 시간이 경과에 따른 패턴 분석
° 새차 구입후 캠핑장비 구입

분류탐사(Classification)

° 이미 알려진 그룹의 특징을 부여
° 어떤 범주에 근거해 사전에 정의된 분류를 구분하는데 사용됨
° 소득액이 일정액 이상이고 거주지에 따라 고객등급 부여

군집탐사(Clustering)

° 유사한 특성을 지닌 데이터의 그룹을 분류하여 패턴을 분석
° 20대 후반의 여자와 30대 초반의 남자는 스포츠카를 선호한다

추정(Estimate)

° 회귀분석
° 주가나 매출액같은 연속된 결과를 예측하는 기법

의사결정트리(Decision Tree)

° 분류(Classification)와 예측(Prediction)에 따라 알고리즘 트리를 운행
° 의사결정 과정을 직관적으로 제공

기억기반추론(MBR)

° 모르는 실례들을 예측하기 위하여 모델에 알려진 실례들을 사용함
° 거리함수와 조합함수가 기억기반추론의 주요 구성요소임

신경망(Neural network)

° 학습을 통해 분류와 예측을 위한 패턴을 일반화
° 데이터 형태가 없고 뚜련한 패턴이 없을 때 유용
° 결론 도달 과정이 블랙박스

K-nearest neighbor

° 기본적인 분류 알고리즘으로 임의의 점과 가까운 k개의 점을 이용하여 임의의 점과 이산적인 값 또는 연속적인 변수를 산정하는 방법

비교

 

OLAP

Data Mining

정보요구

 전사적으로 무슨(What)일이 발생했는가?

 왜(Why) 이런일이 발생했는가를 기반으로 미래예측

구체화정도

 요약데이터 수준

 상세한 트랜잭션 수준의 데이터

차원의 수

 차원들의 수가 제한적

 차원들의 수가 방대함

차원속성의 수

 적은수의 속성들

 많은 속성들

분석접근방법

 사용자주도(User Driven)/대화식분석(Interactive)

 데이터주도(Data Driven)/자동지식발견

분석기법

 다차원적, Slice&Dice, Drill-Up/Down..

 데이터 추출, 정제, 변환, 모델링, 예측

현기술 수준

 성숙되고 널리 사용됨

 계속적으로 성장중인 기술


[관련 포스트]
2008/08/21 - [IT 노트/데이터베이스] - 데이터마이닝 환경에서의 프라이버시 보호기술
2008/08/21 - [IT 노트/데이터베이스] - 데이터웨어하우스
2008/08/21 - [IT 노트/데이터베이스] - OLAP
2008/09/27 - [IT 노트/데이터베이스] - (도서리뷰)OLAP 테크놀로지

반응형