[이재형의 통계이야기] ㉔

이름도 생소한 데이터허브국

▲ 이재형 박사

정부 부처를 찾아가 보면 실·국·과 등 여러 부서가 있다. 과는 중앙부처 정부조직의 제일 기본 단위로서 적게는 7~8명, 많게는 20~30명 공무원으로 구성돼 있다. 이런 과가 몇 개 모여 국이 되고, 국이 몇 개 모여 실을 구성한다. 대부분 정부 부처는 국이나 과의 이름만 보면 대개 어떤 일을 하는지 알 수 있다. 외교부에는 유럽국에 서유럽과가 있는데, 영국, 프랑스, 독일 등 서유럽 국가 관련 외교를 담당하는 부서라는 점을 짐작할 수 있다.

통계청도 마찬가지다. 통계정책국 품질관리과는 통계의 품질관리를 담당하는 부서이고, 경제통계국 경제통계기획과는 경제통계 전반의 관리업무를 하는 부서라고 쉽게 짐작할 수 있다. 그런데 통계청 조직 가운데 이름만 듣고는 도무지 알 수 없는 부서가 하나 있다. 바로 통계데이터허브국이다. 데이터 허브? 도대체 무엇을 말하며, 무엇을 하는 조직일까?

전통적으로 통계는 조사대상자를 현장 조사해 얻은 자료를 바탕으로 작성돼왔다. 예를 들면 인구센서스는 조사원들이 조사내용을 담은 조사표를 가지고 개별 가구를 방문해 조사대상자인 개개 국민에게 조사표에 쓰인 항목들을 질문하고, 응답 내용을 통계청에 제출한다. 통계청에서는 이들 질문지를 모아서 우리나라 인구통계를 작성하게 된다. 그런데 이렇게 조사를 통해 통계를 작성하면 비용이 많이 든다. 조사원을 고용하는 데 돈이 들고 국민이 조사에 응하는 시간도 결국은 돈이다. 인구센서스 통계를 작성하는 데 꼭 조사를 통한 방법밖에 없을까? 좀 더 적은 비용으로, 국민에게 수고를 끼치지 않고 인구통계를 작성하는 방법은 없을까?

별도 조사 없이도 만들 수 있는 통계

정부는 이미 국민 개개인에 관한 자료를 많이 보유하고 있다. 주민등록부에는 우리가 언제 어디서 살았는지, 가구 구성이 어떻게 바뀌었는지 상세하게 나와 있다. 호적 자료에는 모든 국민이 언제 태어났으며, 가족관계는 어떻게 구성돼 있으며 그것이 어떻게 변해왔는지 자세히 나와 있다. 또 국세청은 우리가 무슨 일을 해서 돈을 얼마나 벌었는지 파악하고 있다. 건강보험공단은 나와 우리 가족이 무슨 병으로 얼마나 치료를 받았는지 날짜별로 상세히 기록돼 있다. 등기소에서는 내가 소유한 주택 등 부동산 자료를 소상히 파악하고 있다. 이렇게 나에 관한 상세한 자료를 이미 정부가 다 가지고 있으면서, 정부는 왜 또 인구통계를 작성하기 위해 나와 우리 가족에 관한 여러 정보를 조사한다고 법석을 떠는 걸까?

지금은 제4차 산업혁명 시대라고 말한다. 제4차 산업혁명은 데이터 혁명이라고 말하면서, 공공부문과 민간부문에서 자동으로 축적되는 빅데이터를 적극적으로 활용해야 한다는 목소리가 높다. 정부는 물론 다양한 민간기업에서 국민들의 활동에 관한 빅데이터가 매일, 매달, 매년 천문학적인 양으로 축적되고 있다. 정보통신산업의 발달로 대량의 데이터를 처리하는 것이 별로 어렵지 않게 된 지금 이런 빅데이터를 활용한다면 여러 가지 통계를 작성할 수 있을 텐데, 정부는 왜 일부러 돈을 들여 번거롭게 통계조사를 한다고 할까?

통계는 여러 자료를 토대로 작성할 수 있다. 통계작성을 위해 직접 조사된 자료는 물론, 정부가 보유하고 있는 여러 종류의 행정자료와 정부·민간에서 생산되는 빅데이터 등 모두 훌륭한 통계자원으로 활용될 수 있다. 허브(hub)는 특정 활동의 중심지라는 의미다. 데이터 허브(data hub)란 데이터를 총괄적으로 관리하는 중심지란 뜻이며, 통계청의 통계데이터허브국은 통계에 활용될 수 있는 조사자료, 행정자료, 빅데이터 등을 포괄적으로 통합 관리하는 중심지, 즉 통계 데이터에 관한 창고기능과 아울러 관리(governance) 기능을 담당하는 조직이다. 통계자원이 될 수 있는 각종 자료를 물리적으로 한곳에 모아놓고, 이들 자료를 체계적으로 보관, 관리, 융합, 조정하는 기능이 바로 데이터허브 기능이며, 이 기능을 수행하는 부서가 바로 데이터허브국이다.

▲ 통계자원이 될 수 있는 각종 자료를 물리적으로 한 곳에 모아놓고, 이들 자료를 체계적으로 보관, 관리, 융합, 조정하는 기능이 바로 데이터허브 기능이며, 이 기능을 수행하는 부서가 바로 데이터허브국이다. ⓒ flickr

왜 자료를 모으려 하느냐고?

2년쯤 전인가, 빅데이터 분야 교수들과 민간 대기업의 빅데이터 분야 책임자들을 초청하여 데이터 허브 기능에 관한 회의를 한 적이 있었다. 이 회의에 참석한 전문가들 가운데 많은 이들이 대부분 데이터 허브 기능에 동의하기 어렵다는 의견을 제시했다. 데이터는 각 담당 기관들이 보관‧관리하며, 여러 기관이 보유한 자료를 연결할 필요가 있을 때, 예를 들면 주민등록번호와 같은 공통의 키(key)를 가지고 여러 데이터를 간단히 연결‧융합할 수 있는데, 왜 통계청에 데이터 허브라는 새로운 기능을 만들어 번거롭게 데이터를 물리적으로 한곳에 모으려고 하느냐는 것이다.

예를 들면 우리 국민들이 소득수준에 따라 어떤 질병을 가졌는지, 또 치료비는 얼마나 지출하는지 파악하기 위해 국세청 소득 자료와 건강보험공단이 보유하고 있는 개인별 진료기록을 연결할 필요가 있다고 치자. 국세청과 건강보험공단이 각각 자료를 보유하고 있더라도 두 자료 모두 주민등록번호를 포함하고 있으므로, 주민등록번호를 키로 이용한다면 두 자료를 간단히 연결할 수 있다. 이들 두 자료는 통계청 데이터 허브라는 하나의 기관에 물리적으로 함께 보관·관리할 필요가 없으며, 데이터를 분산해 놓더라도 데이터 이용에 전혀 문제가 없다는 것이다. 참석한 빅데이터 전문가 대부분이 이런 주장에 동의했다.

데이터 간 현실적 장벽 이해 못 해

이런 의견을 듣고 필자는 조금 놀랐다. 전문가라는 분들이 다른 기관이 보유하고 있는 데이터를 연결할 때 직면하는 현실적 장벽을 전혀 이해하지 못하고 있다고 생각해서였다. 많은 빅데이터 전문가들은 자기 회사가 보유한 빅데이터를 활용하는 데만 관심이 집중돼 있으며, 외부 데이터와 자신들이 소유한 빅데이터를 연결하는 업무를 해본 적도 관심을 가져본 적도 없기 때문이다. KT나 SKT와 같은 통신업체는 통화 관련 빅데이터를, 신용카드회사는 신용카드 거래정보라는 빅데이터 만을 가지고 분석업무를 해왔기 때문에 다른 데이터를 연결·융합할 때 발생하는 현실적 어려움에 관한 이해가 부족해 보였다.

국세청 소득자료와 의료보험 진료자료를 연결해 분석하려는 경우를 상정해 현실적으로 나타날 수 있는 장애 요인을 검토해보자. 김모 교수가 기획재정부로부터 의료보험제도 개선을 위해 국세청 자료와 의료보험 공단자료를 이용해 우리 국민의 소득수준과 질병, 그리고 의료비 지출에 관한 분석연구를 수행할 것을 의뢰받았다고 치자. 김 교수는 국세청을 방문해 우리 국민의 개인별 소득자료를 요청했다. 국세청은 개인별 소득자료는 개인정보이므로 외부에 제공할 수 없다고 거부한다. 김 교수와 기획재정부는 다시 국세청 담당자에게 개인별 소득자료 반출이 안 된다면 개인정보 보호를 위해 국세청 전산실 안에서 분석을 하고, 개인별 소득정보가 노출되지 않은 분석 결과만을 가져가겠다고 설득했다.

국세청 담당자도 난감한 처지에 빠졌다. 도와주고 싶은데, 이때까지 국세청 전산실에 외부 인사가 와서 데이터 분석을 한 적이 없기에 어떤 절차를 거쳐 데이터 사용을 허용해야 하는지 규정조차 없다. 김 교수가 국세청 전산실에 찾아와 데이터 분석을 한다고 할 때, 개인 세무 정보 보호를 위해 어떤 보안 조처를 해야 할지도 알 수 없다. 자칫 잘못 도와주다간 개인정보 유출과 관련한 규정 위반으로 중징계를 받을 수도 있다. 그래도 이런 상황에서 김 교수와 기획재정부의 정책당국자로부터 집요한 설득을 받아 국세청 담당자는 마지못해 자료반출은 절대 안 되며, 김 교수가 국세청 전산실 내에서 분석을 수행한다는 조건 아래 자료를 제공해주겠다고 결정했다. 외부에서 통계작업을 할 경우 소득 데이터의 불법반출 상황이 발생하기 때문이다.

이런 상황은 건강보험공단에서도 벌어졌다. 국세청과 마찬가지 이유로 처음에는 데이터 제공을 거부했으나, 김 교수와 기획재정부 정책담당자의 간곡한 설득으로 공단도 자료를 제공하기로 했다. 우여곡절 끝에 김 교수는 국세청과 건강보험공단의 자료를 모두 사용할 수 있게 되었다. 그러면 앞으로 김 교수의 연구는 순조롭게 진행될 수 있을까? 아니다. 두 기관 모두 자료 제공을 약속했으나, 김 교수는 여전히 두 자료를 이용할 수 없다.

김 교수의 연구를 위해서는 국세청 자료와 건강보험공단 자료를 함께 동시에 사용해야 한다. 이 사정을 국세청 담당자에게 설명하니, 국세청 담당자는 건강보험공단 자료를 가져와 국세청 컴퓨터에 다운로드를 받아 분석하라고 한다. 건강보험공단 쪽도 국세청 자료를 가져와 건강보험공단 컴퓨터에 다운로드해 두 자료를 함께 분석하라고 한다. 그런데 두 자료 모두 개인정보보호를 위해 외부 반출은 절대 안 된다. 국세청 자료와 의료보험 자료가 한 곳에 있어야 김 교수의 연구가 수행될 수 있는데, 두 기관은 자료 제공에 동의했는데도 현실적으로 두 자료를 연결할 방법이 없는 것이다.

각종 자료 연결하려면 표준화 필요

데이터 허브는 각종 조사자료나 행정자료, 빅데이터 등을 통계 목적으로 사용하고자 할 때 나타나는 이상과 같은 장벽을 제거하기 위한 것이다. 먼저 통계 목적으로 활용할 수 있는 행정자료나 빅데이터를 한곳에 모은다. 이 과정에서 나타날 수 있는 관계기관 간 의견 차이, 자료제공 원칙 등 데이터 수집‧활용에 따른 절차들이 표준화하고, 적절한 절차에 따라 데이터의 이동이 이루어진다.

또 여러 데이터를 한곳에 모았다 하더라도 이것을 바로 통계자료로 활용하기는 어렵다. 행정자료라 하더라도 부정확한 정보가 많이 포함될 수 있다. 예를 들면 국세청 소득세 자료라 하더라도, 수집된 여러 항목 중 소득세 부과와 징수에 크게 관련되지 않은 항목에 관해서는 국세청에서 그다지 신경 쓸 필요가 없으며, 이런 이유로 잘못된 정보가 다수 포함될 수 있다. 이런 부실한 정보로 통계작성을 하려면 데이터의 정확성에 관한 검토·수정‧보완 작업이 필요하다. 이 일은 통계작성 기관이나 연구자 개인 차원에서는 해결할 수 없으므로 체계적인 데이터 관리방안을 통해 이루어져야 한다. 데이터 허브 기능은 이런 불완전한 데이터를 개선‧보완하는 기능을 수행한다.

데이터가 제대로 정비됐다 하더라도 연구자나 통계작성 담당자들이 이 데이터에 효과적으로 접근하려면 투명한 행정절차와 개인정보 보호를 위한 보안장치가 필요하다. 국세청이나 건강보험공단 같은 일반 정부 기관은 데이터 제공을 위한 기관이 아니니까 자료제공과 관련한 절차나 보안장치를 기관별로 마련한다는 것이 사실상 불가능하다. 데이터 허브는 연구자나 통계작성담당자들에게 데이터를 효과적으로 제공하는 것이 주요 기능 가운데 하나이므로, 데이터 제공과 관련한 절차나 보안장치를 투명하고 완벽하게 설치할 수 있다. 이를 통해 데이터 이용자들이 개별 기관을 상대로 데이터를 요청할 경우 발생할 수 있는 행정적, 절차적 난관을 손쉽게 해결할 수 있다. 데이터 이용자들이 데이터에 접근하려 할 때 부딪히게 되는 현실적 장벽이 크게 낮아지는 효과를 거둘 수 있다.

‘허브’ 이용하면 통계 문턱 낮출 수 있다

통계청이 데이터 허브 기능을 새로이 도입한 역사는 아직 짧다. 따라서 현재의 데이터 허브 기능이 충분하다고 할 수 없고, 해결해야 할 과제도 적지 않다. 그렇지만 정부와 민간에서 보유하고 있는 조사자료, 행정자료, 빅데이터 등을 적극적으로 활용해 국민에게 필요한 더 많은 통계를 적은 비용으로, 효과적으로 작성하려면 앞으로도 데이터허브 기능이 더욱 확대될 필요가 있다. 데이터 허브 기능이 강화될수록 통계작성 기관은 더 많은 통계를 더 적은 비용으로 손쉽게 작성할 수 있게 된다.

일반인이 통계자료원에 접근하기도 쉬워진다. 통계자료원 접근 장벽을 낮춤으로써, 누구든 원하는 통계를 손쉽게 만들 수 있게 되고, 이는 ‘통계의 국가독점’을 크게 낮춰 결국 민주주의 발전에도 기여하게 될 것이다.


민주주의는 건전한 공론장 없이는 성립되지 않는다. 공론장이 건전해지려면 객관적 현실 인식을 공유해야 하며 그 바탕이 되는 게 통계다. 통계가 흔들리면 정책도 여론도 왜곡될 수밖에 없다. 가짜뉴스도 통계 왜곡에서 출발한다. 언론인은 통계 해석을 잘못하면 ‘사회의 공적’이 될 수 있지만 잘하면 ‘해석특종’을 할 수 있다. 통계전문가인 이재형 박사가 통계에 얽힌 재미있는 얘기들을 풀어낸다. 한국개발연구원(KDI)에서 일하는 그는 <국가통계시스템발전방안> <한국의 산업조직과 시장구조> 등 많은 연구와 저술을 해왔고 통계청 통계개발원장을 역임했다. [편집자]

편집 : 김현균 기자

저작권자 © 단비뉴스 무단전재 및 재배포 금지