[이재형의 통계이야기] ➆

▲ 이재형 박사

조사대상자의 개인정보 보호에 관한 이야기를 좀 더 이어가보자. 최근 빅데이터 활용이 늘면서 개인정보 보호 문제가 사회 이슈로 떠오르고 있다. 빅데이터 활용을 통한 새로운 경제 기회의 창출을 위해서는 우리나라의 과도한 개인정보 보호에 관한 규제를 완화해야 한다는 주장이 있고 한편으로는 개인정보 유출과 이에 따른 개인의 피해를 우려해 규제를 오히려 강화해야 한다는 목소리도 있다. 국가통계 분야에서도 통계자료의 사용 확대와 이에 따른 개인정보 노출 문제가 주요 과제로 등장하고 있다.

개인정보 보호 위한 통계청의 고육지책

과거에는 통계기관이 조사한 자료는 대개 집계된 통계를 작성하는 데 사용됐다. 집계된 통계자료를 매크로데이터(macrodata)라 한다. 통계조사자료가 매크로데이터로 만들어질 때는 개인정보 노출 문제가 전혀 없다. 경제활동조사 통계를 예로 들면 통계청 조사원들이 표본으로 선정된 가구들을 찾아가 가구원의 고용상태를 조사한다. 조사대상자의 성별, 나이, 취업 여부, 취업을 하고 있다면 어떤 업종에 종사하며, 지위는 업체 사장인지 종업원인지 등 고용상태 전반에 관해 상세히 조사한다.

이렇게 조사한 내용을 토대로 우리나라 전체 실업자가 몇 명인지, 또 연령별 또는 성별로는 취업자와 실업자가 어느 정도인지 다양한 종류의 통계표를 만든다. 이렇게 만들어진 통계, 곧 매크로데이터는 모두 일정한 기준에 의해 합계된 숫자다. 특정 개인이나 가구에 관한 정보는 전혀 포함되지 않는다. 어떤 사람이 조사대상으로 선정된 특정 가구의 가구원들에 관한 정보를 알고 싶어도 방법이 없다.

아주 특별한 경우에는 매크로데이터가 개인정보를 노출할 수도 있다. 만약 김갑동 씨가 특정 사업을 영위하는데, 우리나라에서 이 사업을 영위하는 이가 김갑동 씨밖에 없다고 하자. 또 우리나라 전체는 아니더라도 서울시 성북구에서는 이 업종을 영위하는 사람은 박경숙 씨밖에 없다고 하자. 그러면 우리나라 전체 통계를 만들거나, 서울시 성북구의 통계를 만든다면 김갑동 씨나 박경숙 씨의 사업정보가 공개될 가능성이 있다.

이 경우에도 김갑동 씨나 박경숙 씨가 영위하는 업종의 사업실적 정보는 x로 표시되어 통계자료에 공개되지 않는다. 만약 어떤 업종에 종사하는 이가 김갑동 씨와 박경숙 씨 둘뿐이라면, 각자 자기사업실적을 알고 있으므로 발표된 통계숫자에서 자기 숫자를 빼면 상대방 사업실적을 알 수 있다. 이 경우에도 통계에는 x로 표시되어 통계숫자가 공개되지 않는다.

개인정보 익명화하는 마스킹 기법

이렇듯 통계기관은 어떤 방법으로든 조사대상자의 개별 정보가 노출되지 않도록 보안에 신경을 쓴다. 개인정보를 보호하기 위해 통계자료를 익명화하는 것을 마스킹(masking) 기법이라 한다. 매크로데이터에서는 개인정보 노출 가능성이 극히 희박하기 때문에 마스킹 기법이 큰 의미가 없다.

그런데 최근 마이크로데이터(microdata) 이용이 확대돼 조사대상자의 개별정보 노출 우려가 커지고 있다. 마이크로데이터란 개별 통계응답자가 응답한 개별 정보를 말한다. 정책당국과 학계에서는 마이크로데이터의 제공을 확대해야 한다는 요구가 커지고 있으며, 통계기관에서도 이에 부응해 다양한 방법으로 마이크로데이터 제공을 확대하고 있다. 마이크로데이터 활용 확대는 세계적 조류이기도 하다. 주요 선진국 통계기관들은 마이크로데이터 제공을 확대하려고 다양한 방안을 강구하고 있으며, 우리도 예외가 아니다. 마이크로데이터를 이용함으로써 정책당국자나 학자들은 사회현상이나 정책효과에 관해 과거보다 훨씬 더 정확한 정보를 파악할 수 있게 된 것이다.

인구센서스 통계에서 현재 공표되는 통계표의 종류는 100개가 못된다. 그렇지만 인구센서스는 우리나라 5,000만 국민을 대상으로 하고 상세한 질문내용을 많이 포함하고 있는 통계이므로 이 자료를 가지고 만들 수 있는 통계표는 아마 수십만, 수백만 가지가 될 수 있다. 그러나 그렇게 많은 통계표를 미리 만들어 둘 수 없으므로 통계청은 사람들이 많이 찾는 주요 통계 몇 가지만 작성해 발표한다. 이것으로 인구센서스 통계를 끝내면 막대한 비용을 들여 조사한 인구센서스 통계가 너무나 아깝다. 통계조사 자료도 막대한 예산을 투입해 만든 주요 국가자원이다. 만약 통계청이 인구센서스에서 조사된 개별 자료를 제공한다면, 많은 이들이 이것을 사용하며 자기가 필요로 하는 다양한 통계를 스스로 만들어 낼 수 있어 인구센서스 통계는 국가적으로 더 많은 이익을 가져올 수 있다.

▲ 개인정보는 신중히 다뤄야한다. ⓒ Pixabay

기사작성 신천지, 마이크로데이터 분석

이뿐만 아니다. 응답자 개인의 응답내용을 바탕으로 우리가 알고 싶어 하는 여러 가지 의미 있는 사실들을 발견할 수 있다. 예를 들어 “부모의 소득과 아이들의 교육은 어떤 관계에 있는가?”, “아이를 적게 낳는 이유가 무엇인가? 아이를 낳으려고 하지 않아서 그런가, 아니면 결혼을 하지 않아서 그런가?”, “정부가 영세사업자를 지원하기 위해 여러 정책을 실시했는데, 실제로 정책효과가 있었는가?”, “실업가구는 어떤 특성을 갖고 정부는 이들을 위해 무엇을 해야 하는가?” 등등 우리가 안고 있고, 그리고 정책당국자들이 알고 싶어 하는 정보를 새로이 파악할 수 있다. 그럼으로써 사회변화에 따른 적절한 대응책을 만들어 낼 수 있을 것이다. 이뿐만 아니라 하나의 통계조사 자료를 다른 조사자료와 연결해서 분석하면 더 많은 의미 있는 정보를 만들어 낼 수 있다.

마이크로데이터 사용은 이미 학계에서 보편화하고 있다. 이를 통해 과거에는 정확히 알 수 없던 많은 문제를 제대로 포착할 수 있게 되었다. 정책당국도 최근에는 정책수립이나 정책평가의 기초자료로 마이크로데이터 활용을 확대하고 있다. 몇몇 언론기관도 마이크로데이터 분석을 통해 과거에는 포착하지 못한 사실을 새로운 각도에서 접근해 이슈화하고 있다. 마이크로데이터 사용은 앞으로 점점 더 늘어날 것이다.

마이크로데이터 사용 확대는 통계작성 패러다임에 새로운 변화를 가져왔다. 과거 매크로데이터만 제공되었을 때는 통계이용자들이 통계기관이 작성한 통계를 일방적으로 사용할 수밖에 없었다. 이용자들이 좀 더 상세한 내용을 알고 싶더라도 통계기관이 그에 관한 통계를 작성하지 않는다면 포기할 수밖에 없었다. 그런데 마이크로데이터 사용이 가능해지면서 이용자들이 자기가 원하는 통계를 스스로 만들 수 있게 되었다. 지금까지는 통계기관의 아이디어에 따라 만들어진 통계만 이용할 수 있었지만, 이제는 수십, 수백만 사람들이 가지고 있는 다양한 아이디어의 통계를 각자 만들어 낼 수 있게 됨으로써 통계가 제공할 수 있는 정보의 양이 폭발적으로 증가했다. 통계작성의 ‘국가독점 체제’가 무너진 것이다.

마이크로데이터 활용에 따른 또 다른 변화는 이제 개인이 통계작성기관과 동등한 기초자료를 가질 수 있게 되었다는 점이다. 과거에는 통계기관만이 마이크로데이터를 사용할 수 있었으므로, 설령 통계에 잘못이 있더라도 외부에서는 이것을 알 수 없었다. 그런데 마이크로데이터 사용이 가능해지면서 개인도 통계기관과 동등한 조건에서 똑같은 자료를 가지고 통계를 만들거나 분석할 수 있게 되었다. 통계기관이 잘못된 통계를 만들더라도 외부 이용자에 의해 바로 발견될 수밖에 없다. 어떤 연구자가 통계자료를 조작하거나 잘못 사용해 연구 결과를 내놓으면 그 과정이 다른 연구자들에게 바로 재연되어 잘잘못이 객관적으로 평가될 수 있다. 바로 국가가 생산한 정보에 관한 사회적 견제와 균형, 그리고 객관적 검증이 가능해진 것이다.

여기서 한 가지 문제가 등장한다. 마이크로데이터를 제공한다는 것은 곧 응답자 개개인의 응답내용을 제공한다는 건데, 그러면 통계응답자의 개인정보 보호라는 통계기관의 대원칙과는 서로 상충하는 게 아닌가? 바로 통계기관이 가장 고민하는 부분이다. 마이크로데이터 제공이 확대될수록 개인정보보호가 위협받을 가능성은 커진다. 마이크로데이터 제공을 확대할 때 통계기관의 가장 큰 과제는 그것을 확대하면서 어떻게 개인정보를 보호할 거냐는 문제다.

데이터 내용과 응답자 정보 차단

내가 통계조사에서 응답한 내용이 다른 사람에게 제공되더라도, 그 자료가 나에 관한 것이라고 특정되지 않는다면 내 정보는 충분히 보호된다. 마이크로데이터 제공에서 개인정보 보안 문제는 데이터의 내용과 응답자가 서로 연결되지 못하도록 하는 것이다. 그래서 마이크로데이터를 제공할 때는 개인이나 개별 사업자의 식별 정보가 드러나지 않도록 철저히 관리한다. 다양한 마스킹 기법이 동원되는 것이다.

마이크로데이터를 이용한 통계분석은 엄중한 보안장치가 취해진 제한된 공간에서 엄격한 감시 아래 이루어진다. 마이크로데이터를 제공하더라도 그 데이터 자체를 반출할 수는 없으며, 엄격한 보안과 감시체계 아래 허가받은 내용에 관해 사용하는 것만 가능하다. 이용자가 가지고 나갈 수 있는 것은 마이크로데이터를 이용하여 작성한 통계표이며, 이것도 반출하기 위해서는 개별정보가 포함되어 있지 않은지 엄격한 심사와 검사를 받아야 한다.

우리나라는 물론 미국, 일본, 영국, 독일 등 모든 선진국들이 마이크로데이터 활용 확대의 중요성을 강조하고 있으며, 이를 위한 제도 정비에 노력한다. 그 가운데 가장 중요한 과제가 바로 개별정보 보호를 위한 보안장치이며, 몇 겹의 안전장치를 강구하고 있다. 미국에서는 의회 차원의 마이크로데이터 사용 확대와 더불어 연방자료보안청 신설이 제안된 상태다. 우리나라 통계청의 마이크로데이터 담당 부서에도 영화 ‘미션 임파서블’의 정보시설처럼 엄중한 보안장치가 설치돼 있으며, 마이크로데이터 사용에도 철저한 감시와 통제가 이뤄지고 있다.


민주주의는 건전한 공론장 없이는 성립되지 않는다. 공론장이 건전해지려면 객관적 현실 인식을 공유해야 하며 그 바탕이 되는 게 통계다. 통계가 흔들리면 정책도 여론도 왜곡될 수밖에 없다. 가짜뉴스도 통계 왜곡에서 출발한다. 언론인은 통계 해석을 잘못하면 ‘사회의 공적’이 될 수 있지만 잘하면 ‘해석특종’을 할 수 있다. 통계전문가인 이재형 박사가 통계에 얽힌 재미있는 얘기들을 풀어낸다. 한국개발연구원(KDI)에서 일하는 그는 <국가통계시스템발전방안> <한국의 산업조직과 시장구조> 등 많은 연구와 저술을 해왔고 통계청 통계개발원장을 역임했다. [편집자]

편집 : 최준혁 기자

저작권자 © 단비뉴스 무단전재 및 재배포 금지