합성 데이터(synthetic data, 재현데이터)
•
합성데이터(재현데이터)는 원자료의 통계적 특성과 일치하도록 만들어낸 가상 데이터로, 데이터의 잠재된 가치를 이끌어내는 중요한 기술로 평가되고 있습니다.
◦
최근 데이터 활용 시 개인정보 침해 문제를 해결하기 위한 방안으로 합성데이터의 활용과 이에 대한 논의 활발
•
가명정보 활용에 대한 제약적 요인을 합성데이터의 활용 및 기술 검증을 통해 해소함으로써 데이터 산업 시장 규모 확대를 지원합니다.
•
합성처리 후 익명성 검증 등의 프로세스를 거쳐 상품성 및 사업화 가능성을 검토함으로써 새로운 데이터 컨텐츠 개발 및 활용 사례 확보합니다.
합성데이터 생성을 위한 쟁점
→ 데이터 전 생명주기에 걸쳐 프로젝트를 리딩하는 주체 필요
•
합성데이터는 현재 개인정보 처리 가이드라인에 익명화 기술로 명시되어 있으나, 산출물의 활용상의 이슈(법적지위 포함)가 지속적으로 발생하고 있습니다.
•
가명/개인정보를 처리할 수 있는 격리된 환경(가명처리 가이드라인) 공간이 필수입니다.
•
합성데이터 생성은 데이터 A를 활용하여 A’를 생성 시 수반되는 모든 작업에 대한 고려가 힐요합니다. (단순 솔루션 활용은 한계가 존재, 내부 로직 추가개선 필요)
•
인전성과 효율성을 특정지표로 정량적 관리하고, 정성적 심사를 통해 활용 근거를 마련하는 것이 필수적입니다.
합성데이터 생성 절차
STEP1 데이터 전처리 : 합성처리 이전 적절한 수준의 가명처리
•
합성데이터 생성 시 활용상 법적 이슈가 존재하여 반드시 가명처리가 필요합니다.
•
가명처리 시 목적에 따른 적절한 컬럼별 처리 수준을 정의하고 그에 맞는 가명처리 기법 적용이 필요합니다.
STEP2 데이터 생성 : 목적에 맞는 적절한 합성방법론 사용
•
데이터의 특성 및 활용 목적에 따라 적합한 방법론을 선정합니다.
•
방법론의 세부적인 파라미터 튜닝을 통해 데이터의 적정 품질 수준을 제고하고 있습니다.
※ ’2022년 기술검증 사업(NIA)을 통해 다양한 방법론을 활용한 합성데이터 생성 및 검증 수행 경험 보유
STEP3 위험성 및 유용성 검증 : 합성데이터 특수성을 반영한 평가
•
목적에 따른 유용성 검증 테스트 케이스 설계하고 검증을 수행합니다.
◦
EX) 매출, 가공, 클러스터리 등 적합한 테스트 케이스 작성 후 검증하여 목적 달성가능성 검증
STEP4 데이터 후처리 : 활용목적에 적합한 데이터 추가 가공
•
STEP3에서 도출된 결과 기반으로, 목적 달성가능성 제고를 위한 추가 가공 절차를 수행합니다.