[개인정보 비식별조치] 2. 비식별화 기술

2019. 11. 26. 18:14Etc

반응형

비식별화 기술

  1. 식별방지
  2. 추론방지
  3. 비식별화의 어려움 및 해결방안
  4. 비식별 조치를 취한 두 정보를 결합

1. 식별방지

식별방지를 위해 개인 식별 요소를 삭제합니다.

개인 식별 요소 삭제기법에는 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹이 있습니다.
이 중 주로 데이터 범주화, 데이터 마스킹을 많이 씁니다.

원본 비식별조치 이후
가명처리 홍길동, 한국대 재학 임꺽정, 국제대 재학
총계처리 임꺽정180cm, 홍길동170cm, 이콩쥐160cm, 김팥쥐150cm 물리학과 학생 키 합: 660cm, 평균키 165cm
데이터 삭제 주민등록번호 900101-1234567 90년대생, 남자
데이터 범주화
(intervals)
홍길동, 35세 홍씨, 30~40세
데이터 마스킹
(masking)
홍길동, 35세, 서울거주, 한국대 재학 홍◯◯, 35세, 서울 거주, ◯◯대학 재학

19

위의 표는 나이를 데이터 범주화 기법을 이용해 비식별화한 정보입니다.
오른쪽으로 갈수록(level이 높아질 수록) 재식별 가능성은 낮아지지만 정보의 가치는 떨어집니다.


2. 추론 방지

추론방지를 위해 재식별 가능성을 검토합니다.
프라이버시 보호를 위한 재식별 가능성 검토 기법에는 k-익명성, l-다양성, t-근접성이 있습니다.
※ 여기서 k, l, t값은 전문기관의 (3명 이상의) 전문가가 검토하여 제시 받는 값입니다.

  • k-익명성(k-Anonymity)
    • 특정인임을 추론할 수 있는지에 대한 검토
    • 동일한 값을 가진 레코드를 k개 이상으로 설정 → 특정 개인을 식별할 확률은 최대 1/k
  • l-다양성(l-Diversity)
    • 특정인 추론이 되지 않는다 하더라도, 데이터에 민감정보가 포함되어 있을 경우, 다양성을 높여 추론 가능성을 낮춥니다
    • k개의 레코드에서 민감정보가 중 최소 l개 이상의 다양성을 가지도록 합니다.
  • t-근접성(t-Closeness)
    • l-다양성기법에 추가적으로 t-근접성 기법까지 적용하면 추론 가능성을 더 낮출 수 있습니다.
    • 민감한 정보의 분포를 낮추게 하는 방법
    • 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t이하로 설정

아래로 내려갈 수록 더 강력하고 엄격한 프라이버시 보호가 됩니다.


2-1) k-익명성

20

성별, 나이, 지역을 준 식별자라고 가정할 때, 동일한 준식별자를 가진 row가 최소 k개 이상으로 맞추는 것이 바로 k-익명성입니다.
위의 데이터는 k를 2로 설정한 결과 값입니다.

위의 테이블 내에 51살의 경상지역에 사는 남자인 K모씨 가 누구인지 2명으로 꼽을 수 있기 때문에 두 값 중 특정 지을 수 없게 되는 것이 바로 k-익명성의 특징입니다.


2-2) l-다양성

21

sex, age, loc, salery 중 salery(연봉)을 민감정보로 설정할 경우, k-익명성을 거친 후 l-다양성을 만족해야 합니다.
k-익명성을 적용한 데이터의 민감정보는 적어도 l개 이상 다양해야 합니다.

위의 테이블은 l을 2로 설정한 것으로 21살의 강원지역에 사는 남자인 P모씨의 민감정보인 연봉이 1000이라는 것이 노출될 수 있는 문제를 방지하는 기술입니다.

여기서, 21살의 강원지역에 사는 남자인 P모씨의 연봉은 모두 1000이기 때문에 다양성을 만족하지 못합니다.
이를 해결하기 위해서는

  1. l-다양성을 만족하지 못하는 2개의 데이터를 제거하거나,
  2. 분석에 불필요한 준식별자를 제거해야 합니다.

3. 비식별화의 어려움 및 해결방안


k-익명성이 충족되지 않을 경우 취해야할 조치

  1. 준식별자 수가 너무 많을 경우
    • 불필요한 준 식별자를 삭제한다.
  2. 특정 준 식별자 조합에 해당하는 레코드가 k개 미만이다.
    • 빈도 분석을 통해 해당 관측 값을 찾고, 분석상에서 제거해도 무방한 정보라면 삭제한다.
  3. 심각한 비대칭 분포
    • 연속변수인 경우, 로그 변환 등을 통해 균등분포 or 정규분포 모양을 만든다
    • 명목변수인 경우, 빈도가 작은 cell을 pooling(통합)하여 일정 수 이상의 빈도를 확보한다

l-다양성 또는 t-근접성 충족되지 않을 경우 확인해야할 정보들

  1. 특정 준식별자와 민감정보가 상관관계가 큰 경우 ( 복용하는 약과 질병 )
    • l-다양성을 충족하기 어려울 수 있다. 그럴 경우, 관측치의 개수를 늘려서 다양성을 만족할 수 있도록 해야 한다.
  2. 민감정보가 여러 개일 경우
    • 민감정보 각각에 대해 l-다양성 또는 t-근접성 기준을 설정해야 하기 때문에, 특정 정보 하나가 기준을 만족시키지 않아 결과를 충족시키지 못할 수 있다.
    • 그 특정정보가 분석상 제거해도 큰 영향을 주지 않는다면 삭제한다.

4. 비식별 조치를 취한 두 정보를 결합


22

A, B사는 동일한 알고리즘을 적용하여 식별자를 임시 대체키로 전환하여 전문기관에 비식별정보를 넘깁니다.
이 때, 비식별조치 과정은 위에서 설명했던 식별방지, 추론방지 과정을 모두 완수하는 것을 의미합니다.
임시 대체키를 만들 때 주민등록번호는 법적인 근거에 의해 활용할 수 없습니다.

동일한 알고리즘을 적용하여 임시 대체키를 만들었기 때문에 전문기관에서는 이 임시대체키를 이용하여 두 데이터를 결합할 수 있고, 결합정보를 제공할 때엔 임시 대체키를 삭제하여 제공합니다.
※ 임시 대체키를 제거하지 않을 경우에는 k=1로 기존 정보에 합칠 수 있는 우려가 있기 때문에 결합정보를 제공할 때엔 반드시 임시 대체키를 제거해야 합니다.

결합 정보를 이용하여 특정 개인을 판별할 수 없도록 하는게 비식별조치의 목적 입니다.

728x90
반응형