[이재형의 통계 이야기] ㉖

인구통계처럼 숫자 크다고 빅데이터는 아니다

▲ 이재형 박사

지금을 제4차산업혁명 시대라고 말한다. 엄밀히 개념을 규정하기는 어렵지만 인공지능, 사물인터넷, 빅데이터 등 첨단 정보통신기술이 경제‧사회 전반에 확산되면서 나타나는 산업이나 경제사회 전반의 혁명적 변화를 일컫는 말로 이해되고 있다. 이와 관련해 빠지지 않고 등장하는 말이 빅데이터(big data)이다.

빅데이터란 말 그대로 양이 많은 데이터란 뜻인가? 그렇지만 우리나라에 사는 사람의 숫자에 관한 정보나 우리나라에 있는 기업들의 날짜별 수출액 같은 것은 1년치 자료만 하더라도 수천만, 수억 건에 이르는 방대한 양이지만, 이를 빅데이터라 하지는 않는다. 그 대신 방탄소년단을 응원하는 메시지를 보낸 SNS상의 자료를 취합한 데이터는 비록 그 수가 몇 천, 몇 만 건에 불과하더라도 일반적으로 빅데이터라 부른다. 일반 데이터와 빅데이터의 차이는 무엇인가?

우선 일반적으로 이용되는 기존 데이터들이 숫자 등으로 표시된 정형화한 자료라면, 빅데이터는 형식이 정해지지 않은 다양한 형태의 데이터를 말한다. 이런 데이터는 대체로 양이 방대한 경우가 많아 이를 빅데이터라 부르는 것 같다. 유무선 전화통화에 관한 기록들, 신용카드 사용기록들, 디지털 자료로 기록되는 시민들의 대중교통 이용실적, 각종 SNS에서 유통되는 여러 가지 정보들, 인터넷상에 떠도는 다양한 정보 등등 사람들이 살아가면서 저절로 생성되는 생활의 기록들이 모두 빅데이터로 이해될 수 있다.

▲ 빅데이터는 형식이 정해지지 않은 다양한 형태의 데이터를 말한다. ⓒ pixabay

각국 통계청의 빅데이터 활용방안

4차산업혁명의 한 특징을 빅데이터라고 한다면, 통계 분야에서도 빅데이터를 활용하면 큰 비용 없이 손쉽게 통계를 작성할 수 있지 않을까? 그러면 통계조사를 한다고 국민들을 괴롭힐 일도 없을 것이다. 실제로 이미 많은 선진국들이 통계작성에서 빅데이터를 활용하는 방안을 검토하고 있다.

UN통계위원회(UNSC)는 2014년 ‘공식통계를 위한 빅데이터 전문가 작업반’(GWG: Global Working Group on Big Data for Official Statistics)을 설립하여 빅데이터 관련 방법론의 개발, 품질, 개인정보보호 등에 관한 검토를 하고 가이드라인을 작성했다. 2014년부터는 ‘빅데이터와 공식통계 국제회의’를 매년 열고 있다.

미국은 정부 주도로 빅데이터 전략을 추진하고 있다. 대통령실에 과학기술정책실과 부처의 연구개발 프로젝트를 통해 빅데이터 전문가를 양성하고 있으며, 이미 2012년부터 ‘빅데이터 연구개발 이니셔티브’(Big Data R&D Initiative)를 추진하고 있다. 미국 연방통계기관들도 통계작성에서 빅데이터 활용 가능성을 검토하고 연구에 힘을 쏟고 있다.

영국 통계청은 빅데이터 연구 전담조직을 두고 공식통계 작성에서 빅데이터 활용의 장단점과 이용 가능 기술을 파악하기 위해 2014년부터 빅데이터 프로젝트를 시작해 2016년 5월에 2단계 과업을 완료한 바 있으며, 지금도 후속작업에 노력을 기울이고 있다. 이와 동시에 인터넷 가격 데이터, 트위터 메시지, 스마트미터 데이터, 휴대폰 위치 데이터 등을 활용하여 경제·사회 분야의 4개 파일럿 프로젝트를 진행하고 있다.

일본은 2016년말 통계에서 민간 빅데이터와 행정기록 데이터의 이용 등을 내용으로 하는 통계개혁 기본방침을 결정한 바 있다. 경제산업성과 내각부는 이미 빅데이터의 통계적 활용을 위한 연구·조사를 외부 전문기관에 의뢰하여 보고서를 받았고, 이에 근거해 작성된 통계를 부처 홈페이지를 통해 실험적으로 발표하고 있다. 예를 들면 판매시점관리제도(POS) 등의 빅데이터 자료를 바탕으로 산업동향자료를 시험적으로 작성하고 있으며, 이를 기존의 조사에 의한 산업동향통계와 비교해 부처 홈페이지에 발표하고 있다.

대구지하철 역세권 분석 등에 적용

우리나라에서도 빅데이터의 중요성을 인식하고 정부 여러 부처에서 빅데이터 사업을 추진중이다. 보건복지부는 ‘의료 빅데이터 개방 시스템’을 운영하고, 행정안전부는 빅데이터 공통기반 플랫폼으로서 ‘혜안’을 구축해 빅데이터의 저장, 분석, 활용 기능을 수행하고 있다. 또 한국정보화진흥원 등 여러 기관이 정부 지원을 받아 빅데이터 포털을 운영하고 있다. 이뿐 아니라 민간부문, 특히 통신사와 금융사 등이 빅데이터 사업에 뛰어들고 있다.

통계청에서도 통계작성에서 빅데이터를 활용하기 위해 ‘빅데이터 센터’를 설립해 운영하고 있으며, 빅데이터를 이용해 새로운 통계를 작성하기도 하였다. ‘통신 빅데이터를 이용한 경주시 유동인구 분석’이나 ‘대구지하철 주요 역세권 분석’ 등이 좋은 사례다. 기존 작성되고 있는 통계도 집세조사를 한국감정원의 주택가격동향조사 자료로 대체하는 방안도 검토하고 있는 것으로 알려졌다.

이렇게 통계분야에서도 빅데이터에 관심이 높아지고 있고, 주요국 통계기관들이 빅데이터 연구에 많은 노력을 기울이고 있지만, 아직까지는 눈에 띠는 성과가 나타나지 않고 있는 것도 사실이다. 빅데이터가 큰 잠재력을 가지고 있고, 통계작성에 큰 기여를 할 것 같은 생각은 드는데, 분명한 가시적 성과를 내지 못하고 있는 현실 또한 부정할 수 없다.

빅데이터는 규모가 방대하고, 생성주기도 짧으며, 형태도 정형화한 수치데이터뿐 아니라 비정형화한 문자, 영상 등을 포함하는 대규모 데이터이다. 빅데이터는 기존에 수집된 공식통계를 보완하고, 새로운 통찰력을 제공하므로 이를 활용할 경우 기존 정보체계보다 더 많은 정보와 통계를 생산할 수 있다는 점은 분명해 보인다. 그렇지만 아직까지는 빅데이터가 정확성이나 대표성 등에서 문제가 있어 통계의 기초자료로 활용되는 데는 여러 가지 한계를 갖고 있다.

빅데이터의 문제는 편향성

빅데이터가 안고 있는 가장 큰 문제는 자료의 편향성이다. 예를 들면 스마트폰 자료를 이용해 인구이동을 파악한다고 치자. 이때 수집되는 정보는 스마트폰을 가진 사람들 것에 한정되고, 스마트폰을 갖지 않은 사람들 것은 제외된다. 만약 스마트폰을 가진 그룹과 가지지 않는 그룹 간에 어떤 특성의 차이가 있다면 스마트폰 빅데이터 자료를 바탕으로 작성된 인구이동 통계는 편향성을 가질 수밖에 없다. 신용카드 자료를 이용한 소비분석 통계를 만들 때도 마찬가지다. 신용카드를 소지하고 있지 않은 사람들의 소비정보는 배제될 수밖에 없게 된다.

이런 불완전한 자료는 데이터를 특정 목적에 활용하려는 민간기업에게 충분히 의미 있는 자료가 될 수 있다. 즉 스마트폰 자료를 통해 특정지역으로 인구이동이 많다는 사실이 대체적인 사실이 파악되면 그것만으로도 기업에게는 사업전개의 기초 자료로 의미 있게 활용할 수 있다. 그렇지만 그것이 국가통계로 이용된다면 문제가 달라진다. 국가통계라면 그 지역으로 이동한 인구가 얼마나 되는지, 오차가 어느 정도인지 등 통계로서 갖춰야 할 기본조건들이 정확히 제시되지 않으면 안 되기 때문이다.

또 빅데이터는 통계작성기관이 파악하여야 할 정보 전체를 제공하지 못하는 한계가 있다. 예를 들면 통계작성기관이 상품별 소비액을 파악하고 싶은데, 신용카드 사용기록에는 점포 전체 판매기록은 나오지만 취급하는 품목별 판매액이 나오지 않는다면 그 자료는 의미 있는 자료로 활용되기 어렵다. 이처럼 빅데이터는 통계자료로 활용되기에는 불완전한 요소들을 안고 있기 때문에 아직까지 본격적인 활용에는 한계가 있다는 점을 부정할 수 없다.

빅데이터는 엄밀한 통계기준을 유지하기 어렵다는 문제도 있다. 예를 들면 물가조사를 위해 인터넷 전자상거래 사이트의 가격자료를 이용하려 한다고 치자. 우리나라에는 옥션, G마켓, 쿠팡, 인터파크, 11번가 등 수많은 전자상거래 포털이 있고, 또 특정 품목에 전문화한 그보다 몇 배 많은 전자상거래 업체들이 존재한다. 예를 들면 사과값을 조사한다고 치자. 몇 개 묶음에 얼마, 무게 당 얼마, 상자 당 얼마 등 수많은 사과 값이 존재한다. 같은 전자상거래 업체에서도 날짜에 따라 수시로 새로운 사과 상품이 등장하고 사라진다. 이럴 때 도대체 어떤 사과 값을 통계 기준으로 잡아야 좋은지 혼란에 빠진다. 정보가 너무 많아서 이것을 일관되고 의미 있는 정보로 파악하는 데 어려움이 생긴다는 것이다.

기업과 소비자가 충돌하는 개인정보 보호 가치

빅데이터를 통계의 기초자료로 활용할 때는 이처럼 많은 현실적 어려움이 따른다. 이는 빅데이터를 통계자료로 활용되는 데 치명적인 약점이 되기도 한다. 빅데이터의 통계적 활용은 세계적으로 폭넓게 논의되고 있으나 실제 이용은 아직까지 초기의 시험적 단계를 벗어나고 못하고 있다. 그러나 이런 어려움이 존재한다고 해서 빅데이터의 통계적 활용을 포기할 수는 없다. 빅데이터는 통계작성에서 보조자료로 쓸 수 있을 뿐 아니라 다른 데이터와 상호 보완하면서 새로운 통계자원으로 활용될 가능성은 열려있다.

빅데이터를 활용할 때 중요한 문제로 등장하고 있는 것이 개인정보 보호 문제이다. 이는 빅데이터 활용 전반에 걸친 문제일 뿐 아니라 통계분야에 있어서도 중요하게 다루어야 할 문제다. 민간기업 부문에서는 우리나라 빅데이터 관련 보안규정이 너무 엄격해 빅데이터 활용에 장애요인이 되고 있다고 호소한다. 개인정보 보호에 관한 규제를 대폭 낮추어 빅데이터 활용을 촉진해야 한다는 주장이다. 그러나 빅데이터 정보제공자라 할 수 있는 소비자들은 오히려 개인정보 보호를 더욱 강화해 데이터의 부당 사용에 따른 소비자 피해를 방지해야 한다고 주장한다. 과연 어느 쪽 말이 더 합리적이고 앞으로 개인정보 보호는 어느 수준에서 어떻게 할 것인가?

규제는 낮추되 반드시 지켜야

나는 우리나라 개인정보 보호 규정이 지나치게 엄격해 빅데이터 관련 사업에 지장을 초래하고 있다는 주장에 동의한다. 이와 동시에 개인정보 유출로 많은 사람들이 피해를 보고 있다는 주장에도 동의한다. 얼핏 보면 상반되는 두 주장이 나름대로 현실에 바탕을 둔 합리성을 갖고 있기 때문이다. 나는 우리나라 개인정보 보호 제도는 법제도 상으로는 다른 나라들에 견주어 지나치게 엄격하다고 할 정도이지만, 현실적으로 그것이 제대로 지켜지고 있지 않는 데 문제가 있다고 생각한다.

그래서 규제를 반드시 준수해야 하는 정부나 대기업들이 데이터 관련 사업을 할 때는 이들 제도가 심각한 장애요인으로 등장한다. 그렇지만 개인정보를 보호할 능력과 여건을 갖추지 못한 사업자들은 엄격한 규제에도 개인정보 보호에 관한 인식 없이 무분별하게 정보를 악용하는 사례가 적지 않으며 제재도 제대로 이루어지지 못하고 있다. 법을 반드시 지켜만 하는 이에게는 법률이 지나치게 엄격하고, 반대로 이 법을 지킬 의지가 없는 이에게는 법이 거의 제어기능을 수행하지 못하고 있는 것이다. 규제를 합리적인 수준으로 조정하는 대신 새로운 규제는 엄격하게 지켜지는 방향으로 나아가야 할 것이다.


민주주의는 건전한 공론장 없이는 성립되지 않는다. 공론장이 건전해지려면 객관적 현실 인식을 공유해야 하며 그 바탕이 되는 게 통계다. 통계가 흔들리면 정책도 여론도 왜곡될 수밖에 없다. 가짜뉴스도 통계 왜곡에서 출발한다. 언론인은 통계 해석을 잘못하면 ‘사회의 공적’이 될 수 있지만 잘하면 ‘해석특종’을 할 수 있다. 통계전문가인 이재형 박사가 통계에 얽힌 재미있는 얘기들을 풀어낸다. 한국개발연구원(KDI)에서 일하는 그는 <국가통계시스템발전방안> <한국의 산업조직과 시장구조> 등 많은 연구와 저술을 해왔고 통계청 통계개발원장을 역임했다. [편집자]

편집 : 이정헌 기자

저작권자 © 단비뉴스 무단전재 및 재배포 금지