IT 이야기/데이터베이스

데이터마이닝 환경에서의 프라이버시 보호기술

필넷 2007. 10. 29. 22:34
반응형

데이터마이닝 환경에서의 프라이버시 보호기술

Indivisual Privacy

° Obscuring data
  - 개인의 식별 가능 정보만을 대상으로 random noise를 추가하는 방식
  - 식별 가능한 정보를 제외한 다른 정보로부터 개인의 고급정보를 뽑아내는 문제 발생
  - 데이터마이닝 결과의 정확도를 떨어뜨림
  - ex) IBM의 '사생활 보호 데이터 마이닝(Privacy-Preserving Data Mining)‘ 솔루션

Perfect Privacy

° 개인의 모든 정보를 보호하는 개념
° 개인의 보호받지 않아도 되는 정보들도 보호함으로서 데이터마이닝의 속도 및 기능 저하의 원인이 됨
° 데이터마이닝과 개인정보 사이의 적절한 조화가 필요
° Secret Sharing : (m,n)-역치방식

기본

개념

① n개의 비밀조각(일명 shadow 또는 share) 중 m개 이상의 조각을 모으면 비밀을 재구성할 수 있다.
② m-1개의 비밀조각으로는 비밀을 재구성할 수 없다.

방식

① T는 f(0)=s인 m-1차 다항식 f를 임의로 선택한다. 즉, f(x)=s+a1x+a2x2+…+am-1xm-1(mod p)
   (여기서, a1,a2,…am-1은 임의의 정수, p는 a1,a2,…am-1 보다 큰 임의의 소수)
② T는 각각의 사용자i(여기서 1≤i≤n)에게 비밀조각 si=f(i)를 계산하여 전송
③ 필요시에 n명의 사용자({사용자1, 사용자2, …, 사용자n})중에 m명의 사용자(예를 들어, {사용자1, 사용자2, …, 사용자m})이 비밀 s를 재구성하고자 할 경우, 그들의 비밀조각 si(1≤i≤m)를 입력값으로 다음의 Lagrange 공식을 이용하여 T의 비밀 s를 재구성한다.
      

예제

◇ ASCII 코드 값이 10진수로 11인 비밀 s를 (3,5)-역치방식으로 비밀분산
① 임의의 2차 다항식 f를 선택 즉, f=7x2+8x+11(mod 13)
② 5개의 비밀조각 계산
    s1=f(1)=7+8+11=0(mod 13)
    s2=f(2)=28+16+11=3(mod 13)
    s3=f(3)=63+24+11=7(mod 13)
    s4=f(4)=112+32+11=12(mod 13)
    s5=f(5)=175+40+11=5(mod 13)
③ 3개의 비밀조각(s2,s3,s5)를 이용하여 선형방정식을 풀어 비밀 s를 재구성
    a․22+b․2+s=3(mod 13)
    a․32+b․3+s=7(mod 13)
    a․52+b․5+s=5(mod 13) → 위 방정식의 해는 a=7, b=8, s=11이 된다.

그러므로 재구성된 비밀 s=11

Coporate Privacy

° 다자간 계산이론이 핵심기술로 사용됨
° 데이터웨어하우스에 집적된 데이터 묶음들로부터의 보호를 의미
° 데이터웨어하우스에서 추출한 정보로부터 다른 데이터베이스에 있는 정보유출 방지하도록 설계하는 개념
° k-anonymity

기본

개념

① quasi-identifier : 배포된 다른 정보와 연결할 수 있는 속성들의 집합
② 테이블 T가 quasi-identifier QT에 의해 k-anonymity하기 위해서는 T안의 모든 튜플 r은 QT에 대해 구별이 불가능한 튜플이 적어도 (k-1)개 존재해야함

목적

․ QT를 이용하여 인스턴스들 간의 대응관계와 테이블 안의 튜플 사이에 높은 확 률을 가지는 관련성을 제거한 테이블을 생성

기법

① 일반화 - 속성의 값을 일반화된 값으로 대체하는 기법 ② 은폐 - 일반화 기법을 이용해도 k-anonymity를 만족하지 못하는 튜플들을 적절히 은폐하는 방법

특징

① 특정 개인이 배포된 정보에 포함되어 있다는 사실은 알 수 있지만, 어떤 튜 플이 그 사람을 나타내는 지는 1/k 확률보다 큰 확률을 가지고 결정할 수 없다.
② k가 높을수록 정보 노출 정도는 떨어지지만, QT의 정보 정확성이 떨어지므로 적정 수준의 k값으로 QT값을 일반화할 필요가 있다.

예제


[관련 포스트]
2008/09/27 - [IT 노트/데이터베이스] - (도서리뷰)OLAP 테크놀로지
2008/08/21 - [IT 노트/데이터베이스] - OLAP
2008/08/21 - [IT 노트/데이터베이스] - 데이터마이닝
2008/08/21 - [IT 노트/데이터베이스] - 데이터웨어하우스

반응형

'IT 이야기 > 데이터베이스' 카테고리의 다른 글

분산데이터베이스  (0) 2008.02.14
회복기법(Recovery)  (0) 2008.02.12
OLAP  (0) 2007.10.16
데이터마이닝  (0) 2007.10.16
데이터웨어하우스  (0) 2007.10.12