금융 컴플라이언스/가명ㆍ익명 정보 및 처리

비정형데이터 가명처리 기준

경험한사람 2024. 7. 21. 00:07

정형 · 비정형데이터 비교 및 비정형데이터 가명처리에 대한 예시

 
 
  비정형데이터 개요   
    1. AI 기술 발전과 컴퓨팅 자원 발달로 데이터 활용수요가 전통적 정형데이터에서 비정형데이터(이미지, 영상, 음성, 텍스트)로 변화

    2. 비정형데이터도 가명정보 특례를 통해 과학적 연구 목적 등으로 정보주체 동의 없이 가명처리하여 AI 연구개발 등에 활용 가능

         ※ 전 세계 데이터 중 이미지, 영상, 음성, 텍스트 등 비정형데이터가 최대 90%를 차지 (IDC, ’23)

 

 

□  정형데이터와 비정형데이터 차이  

구분 정형데이터 비정형데이터
정의 정해진 규칙에 맞게 구조화된 형식으로 존재하는 데이터 일정한 규격이나 정해진 형태 없이 구조화되지 않은 데이터
특징 데이터 연산, 분석 등 데이터 처리방식, 가명처리 기술·방법이 비교적 단순 연구목적·환경에 따라 데이터 처리방식 및 가명처리 기술·방법이 복잡·다양
예제 DB에 열과 행으로 저장된 테이블형식의 자료 등 사진, 비디오, 통화음성, 대화기록, 보고서, 메일 본문 등

 

 

□  비정형데이터의 가명처리·활용 예시  

구분 정형데이터
이미지·영상 특정 질병을 진단(보조)하는 의료 AI 연구개발을 위해 병원이 보유한 MRI, CT, X-ray 사진·영상을 가명처리 후 학습데이터로 활용
이미지·영상 불법현수막을 탐지하여 알려주는 지능형 CCTV 개발을 위해 지자체가 보유한 공공장소 CCTV 촬영영상을 가명처리하여 AI 연구개발에 활용
음성·텍스트 민원인 상담·대응을 위한 음성생성 AI를 개발하기 위해 공공기관이 보유한 민원상담 음성정보와 상담기록 정보를 가명처리하여 학습데이터로 활용

 


□  비정형데이터 가명처리·활용의 특수성 및 고려사항
  

    1. (개인식별성 판단의 어려움) 개인식별 가능 정보와 그렇지 않은 정보의 구분이 상대적이며, 처리 목적·환경 등에 따라 다르게 판단될 수 있음

더보기

※ 예시

    ㅇ 얼굴 CT 사진 1장으로는 개인식별 위험성이 낮지만, 여러 위치·각도에서 촬영한 얼굴 CT 사진을 여러장 결합하면 얼굴형상 재건이 가능하여 개인식별 위험성 증가

    ㅇ 눈·코·입을 알아볼 수 없는 거리에서 찍힌 CCTV 영상은 통상 개인식별 위험성이 낮지만, 흉터, 문신, 머리스타일 등 특이한 신체 특징이 있는 경우 개인식별 위험성이 높음

  

   2. (가명처리 기술의 불완전성) 비정형데이터 내 개인식별 위험성이 있는 모든 항목을 완벽하게 탐지·처리할 수 있는 기술이 부재

더보기

※ 예시

    ㅇ 이미지·영상 데이터의 경우, 해상도, 조명 각도, 객체 크기 등에 따라 얼굴 등을 탐지하지 못하는 경우가 존재 → 최근 AI 기술의 객체 탐지 정확도는 90~98% 수준

    ㅇ ‘신뢰역 1번출구 앞 파란건물 1층 1호가 우리집’ 텍스트를 주소로 인식하지 않아 처리 하지 않거나, ‘김신뢰 김밥’ 등 상호명을 개인정보(이름)로 인식해 불필요하게 삭제


   3. (재식별 공격 위험) AI 및 데이터 복원기술 발달로, 다른 정보와의 연계·결합 없이도 개인 재식별 공격 위험성 증가

더보기

※ 예시

    ㅇ 음성변조 규칙을 몰라도 화자의 원본 목소리를 복원할 수 있는 기술 존재

    ㅇ 가명처리된 사진의 모자이크 패턴을 몰라도, AI를 통해 모자이크된 사진을 원본에 가깝게 복원해낼 수 있는 기술 연구 중



□  비정형데이터 가명처리 기본원칙
  

   1. 데이터 처리 목적·환경, 민감도 등을 종합적으로 고려하여 개인식별 위험성이 있는 정보를 판단하고, 합리적인 처리 방법·수준 설정

       1) 연구목적에 맞춰 데이터 자체 훼손을 최소화하면서 관리적·환경적 통제 등 다양한 안전성 확보 방안 적용 가능

       2) 연구목적 달성에 필수적인 정보항목을 남기는 대신 그 외 정보항목에 대한 가명처리 수준을 높이거나, 다른 정보 및 소프트웨어(SW) 반입제한 등 충분한 안전조치를 보완하여 활용

 

   2. 가명처리 기술의 한계 등을 보완하기 위해, 사전 준비단계(연구 및 기술개발 기획 시)부터 위험성을 충실히 검토하고 적절한 안전조치를 수행

      1) 가명처리 기술의 한계 보완을 위해 다음 조치를 이행할 것을 권고

            ❶ 가명처리 기술의 적절성·신뢰성을 확인할 수 있는 근거 작성·보관

            ❷ 가명처리 기술 적용 이후, 처리 결과에 대해 자체적인 검수 수행

            ❸ 가명처리 적정성 검토 과정에서 ❶, ❷를 포함하여 점검(외부전문가 과반 이상 참여 바람직)

      2) 사전에 식별된 개인정보 침해 위험을 예방하기 위해서 가명정보 활용에 참여하는 각 기관의 내부통제 강화 노력이 병행될 필요

      3) 가명정보의 처리목적을 달성하면 신속히 가명정보를 파기하여 사후적 위험 최소화

 

   3. 데이터 복원기술 발달 등에 대응하여, 가명처리된 비정형데이터 활용 시 관련 시스템‧SW의 접근·사용 제한 등 통제방안 마련

         ※  원본 복원에 활용될 수 있는 추가정보 분리보관, 복원 SW에 대한 접근권한 제한 등

      1)  AI 개발·활용 상황에서 나타날 수 있는 다양한 위험을 사전에 완벽하게 제거하는 것은 불가능하므로, AI 서비스 제공과정에서도 개인식별 위험 등 정보주체 권익 침해 가능성을 지속 모니터링

 

 

이상.  끝.