[이재형의 통계 이야기] ㉕

늘어나는 1인가구, 만나기도 어렵다

▲ 이재형 박사

통계조사를 위해 조사자가 응답자를 직접 면담해 조사하는 방식은 전통적인 통계작성 방법이긴 하지만 점점 더 어려워지고 있다. 국민들도 개인 정보 노출을 꺼려 조사에 잘 응해주지 않는 경향이 있다. 조사대상자들이 통계조사에 기꺼이 응할 의사가 있다 하더라도 맞벌이 부부나 1인 가구 증가 등으로 조사자가 조사대상자를 만나는 일 자체가 어려워지고 있다. 통계조사의 어려움은 우리나라만이 겪는 현상이 아니라 대부분 선진국이 직면한 어려움이기도 하다.

사회가 발달할수록 국민이나 기업의 활동은 다양해지고, 그에 비례하여 새로운 통계수요도 늘어나고 있다. 그런데도 조사환경 악화에 따른 통계작성의 어려움은 점점 커지고 있다. 이런 상황에서 전통적인 조사통계 방식에만 의존할 수는 없다. 따라서 행정자료나 빅데이터 등 통계작성기관이 활용할 수 있는 모든 통계자원을 충분히 활용해야 한다는 것이 선진국 통계기관이 갖고 있는 인식이다. 지난번 칼럼에서 이야기한 통계데이터 허브 기능도 이러한 통계환경 변화에서 출발했다.

디지털화한 행정자료가 통계작성 보고

이에 견주어 국민이나 기업에 관해 정부가 보유하고 있는 행정자료는 점점 더 많아지고 있다. 특히 정보통신기술이 발달하자 행정업무의 정보화가 급진전돼 행정활동에서 축적된 더 많은 정보를 효율적으로 이용할 수 있는 환경이 조성됐다. 60~70년대라면 정부가 국민의 주민등록 정보를 모두 갖고 있다 하더라도 종이 문서로 기록돼 있어 통계자료로 활용하는 게 거의 불가능했다. 지금은 대부분 행정자료가 디지털화해 마음만 먹으면 적은 비용으로 손쉽게 통계자료로 활용할 수 있다.

▲ 60~70년대라면 정부가 국민의 주민등록 정보를 모두 갖고 있다 하더라도 종이 문서로 기록돼 있어 통계자료로 활용하는 게 거의 불가능했다. 지금은 대부분 행정자료가 디지털화해 마음만 먹으면 적은 비용으로 손쉽게 통계자료로 활용할 수 있다. ⓒ pixabay

UN “국민에게 물어본 질문은 다시 하지 말라”

행정자료로 통계를 작성할 수 있다면 그것을 활용하는 것은 매우 바람직하다. UN 통계처는 이미 10여 년 전부터 각국 정부나 통계작성기관은 국민에게 한번 물었던 질문을 두 번 다시 하지 말아야 하며 통계작성에 행정자료를 적극 활용하도록 권고했다. 이미 선진국들은 기존 조사를 통한 통계작성 방식에 한계를 느끼고, 가능한 분야부터 통계작성에 행정자료를 활용하는 방안을 검토하고 있으며, 상당부분 진전되고 있다.

그런데 행정자료를 통계자료로 활용하는 데는 적지 않은 현실의 문제가 등장한다. 우선 데이터의 정확성과 신뢰성에 관한 문제가 제기될 수 있다. 많은 정부기관이 업무를 처리하면서 자연스레 개인이나 기업에 관한 행정자료를 축적해가고 있으나, 그 정보가 반드시 정확하다고 단정할 수는 없다. 예를 들면 국세청은 세금을 공정하고 정확하게 걷는 것이 본연의 임무다. 개인의 직업이 무엇이건, 기업의 활동업종이 무엇이건 세금만 제대로 낸다면 신고사항이 다소 실제와 다르다고 하더라도 국세청은 그것에 문제를 제기할 유인이 없다. 그래서 세무자료에 기재된 개인의 직업이나 기업의 업종이 반드시 정확하다고 단정할 수 없다. 또 조세행정과 직접 관련이 없는 정보는 누락되어도 크게 문제시하지 않는다.

차단벽 둬야 하는 불법체류자 정보 

더 중요한 문제는 개인정보 비밀 보호를 위한 것으로 각 행정기관은 고유 목적을 수행하는 과정에서 사회구성원들에 대한 다양한 개인정보를 얻게 된다. 이렇게 수집된 개인정보가 정부기관에 공유되는 경우 개인생활에 심각한 불이익을 초래할 위험을 안게 된다. 미국의 경우 이민으로 성립된 국가여서 이민자가 많고 불법체류자도 많다. 불법체류자도 미국에서 살아가는 구성원의 하나로서 그리고 인간으로서 정당한 권리를 부여할 필요가 있다. 불법체류자라 할지라도 자녀들은 교육을 받아야 하며, 최소한의 사회보장의 혜택도 받아야 한다. 이런 상황에서 정부기관 간, 예를 들어 이민국과 교육기관 또는 사회보장 관련 기관과 정보가 공유된다면, 불법체류자의 신분이 쉽게 드러나게 된다. 그러면 사회구성원으로서 받아야 할 최소한의 교육·복지혜택 등에 접근하기도 어려워질 것이다. 이래서 정부기관 간에도 차단벽(fire-wall)을 두어 정보의 흐름을 차단할 필요가 생긴다.

그러나 정보 차단벽을 너무 강하게 만들면 행정자료를 통계목적으로 활용하는 데 큰 장애가 된다. 또 차단벽을 너무 낮추면 개인정보가 과도하게 노출돼 개인 이익을 침해함은 물론 사회 전반에 부작용을 가져올 수 있다. 그러므로 개인 비밀 노출을 엄격히 억제함과 동시에 행정자료의 통계적 활용을 확대하여야 한다는 것이 통계작성기관이 직면한 어려움이다.

행정자료를 통계목적으로 활용하는 방법으로는 세 가지가 있다. 첫 번째는 행정자료를 토대로 직접 통계를 만드는 방법이다. 두 번째 방법은 조사방식 등으로 수집된 개별 자료의 정확성을 검증하기 위해 행정자료를 활용하는 것이다. 세 번째 방법은 조사대상자, 즉 모집단을 파악하기 위한 자료로 활용할 수 있다. 현재 우리나라는 이 세 가지 방법 모두를 위해 행정자료가 활용된다.

5년 주기 인구총조사 매년 발표할 수 있는 이유

행정자료를 이용한 통계작성으로 가장 앞서나가고 있는 분야가 ‘인구‧주택센서스’로 부르는 ‘인구 및 주택 총조사’ 통계다. 인구‧주택센서스는 우리나라의 5천만 인구와 모든 주택에 관해 조사하는 통계다. 우리나라는 2010년까지 5년마다 0과 5로 끝나는 연도에 직접조사 방식으로 인구주택센서스를 실시해왔다. 그러나 조사환경이 날로 악화하고 작성비용은 1995년 539억원, 2000년 834억원, 2005년 1,290억원, 2010년 1,808억원으로 급증해 종전방식이 계속된다면 2015년 예산은 2.712억원에 이를 것으로 추산됐다.

이에 통계청은 조사비용의 획기적 절감과 함께 조사대상자의 누락을 방지하기 위해 행정자료에 기반을 둔 인구주택센서스를 적극 검토하게 됐다. 다행히 우리나라는 주민등록제도 실시로 모든 국민에 관한 기초정보가 행정기관에 축적돼있고, 건축물 등록제도에 의해 주택정보도 비교적 잘 정비돼 있다.

그러나 등록센서스로 전환하면서 과거 조사방식을 통해 얻을 수 있던 일부 조사항목을 파악하는 것이 불가능해졌다. 이에 따라 과거 전체 조사대상자의 10%에 해당되는 심층조사대상자, 곧 표본조사층 또는 long-form 조사표 조사대상자를 20%로 확대했다. 원래 인구주택총조사는 우리나라 전인구를 대상으로 하는 대규모 조사여서 조사항목이 매우 간단히 구성돼 있다. 이런 간단한 조사표를 short-form이라 한다. 이래서는 국민생활의 다양한 모습을 다면적으로 파악하기 어려우므로 전체 조사대상자의 10%를 추출해 이들에 관해서는 심층적으로 좀 더 상세한 항목을 조사한다. 등록센서스로 전환하면서 등록센서스의 결함을 보완하기 위해 이러한 심층조사층의 수를 2배로 늘린 것이었다. 또 등록센서스로 전환함으로써 과거 5년 주기로 작성되던 인구주택센서스 통계를 매년 작성할 수 있게 된 것도 큰 소득이라 할만하다.

휴·폐업 무상한 사업체조사의 딜레마

기업을 대상으로 하는 통계에서도 행정자료는 널리 활용되고 있다. 어느 통계나 마찬가지지만 통계를 작성할 때 제일 중요하면서도 가장 먼저 해야 할 일은 조사대상자가 어디에 얼마나 있는지를 파악하는 것이다. 인구‧주택 센서스 통계조사를 할 때도 먼저 누가 어디에 살고 있는지를 미리 알아야 조사원이 방문해서 조사할 계획을 세우든지 할 것이다. 기업도 마찬가지이다. 어디에 무슨 기업이 있는지, 도대체 우리나라에 얼마나 많은 기업이 있는지를 알아야 전체를 조사하든, 표본조사를 하든 할 것이다. 통계 용어로 말하자면 통계조사에서는 먼저 모집단(母集團, population)을 정확히 파악해야 한다는 것이다.

어디에 어떤 기업이 있는지는 쉽게 알 수 있는 듯하지만, 알기가 쉽지 않다. 삼성전자 공장이나 이마트 같은 대형마트, 주유소처럼 쉽게 눈에 띄는 기업도 있다. 그러나 전통시장에 가보면 좁은 골목에 수많은 가게와 음식점들이 빼곡 차있다. 서울 을지로에 있는 인쇄골목에는 정말 손바닥만한 면적에 수많은 인쇄업체가 들어있다. 사무실이 하나 있다고 해서 그것을 한 기업이 모두 사용하는 것도 아니다. 좁은 사무실 하나에 몇 개 기업이 공동으로 입주해있기도 하다. 요즘은 가정집에서 전자상거래를 하거나 학생에게 과외를 하는 경우도 많다. 하나하나가 경제학적으로는 모두 기업에 해당한다. 요즘은 주택임대업을 양성화한다고 해서 가정집에서 셋방을 빌려주는 사람 가운데 많은 사람들이 사업자로 등록했다. 이들도 모두 기업이다. 과거처럼 통계조사원들이나 지자체 공무원들이 발로 찾아가 눈으로 하나하나 기업을 확인한다는 것은 이제 거의 불가능해졌다.

통계청에서 작성하는 ‘전국사업체조사’ 통계나 ‘경제센서스’ 통계는 우리나라에 있는 모든 사업체를 조사대상으로 한다. 과거에는 이들 사업체의 소재를 관계 공무원들이 일일이 발로 찾아가 확인했다. 경제상황이 급변하는 지금 이것이 현실적으로 어렵게 되자, 기존의 조사방법에 더하여 행정자료를 활용해 어디에 어떤 기업이 존재하는지 파악하게 됐다. 국세청 납세자료를 포함한 사업자(기업)가 등록되어 있는 여러 행정자료를 모두 활용해 전국의 기업 수를 파악하게 된 것이다.

이 글을 읽는 이들은 이렇게 생각할 수도 있을 것이다. “아니, 모든 기업은 반드시 세금을 내야 하므로 국세청에 가면 어디에 어떤 기업이 있는지 금방 알 수 있을 텐데, 왜 기업이 어디에 있는지 알려고 그런 쓸데없는 수고를 하누?” 그게 그렇게 간단하지 않다. 우선 국세청에 등록하지 않고 사업활동을 하는 사업자도 적지 않다. 이들을 무등록사업자라 하는데, 이들도 통계조사에서는 포함돼야 한다. 또 국세청에 사업자등록을 하고 영업을 하다가 그만두는 사람도 적지 않다. 사업을 그만두면 폐업신고를 해야 하는데, 사업을 그만두고도 신고하지 않는 사업자도 많기 때문에 국세청 세무자료에는 유령사업자도 다수 존재한다.

국세청 등록 사업체 중 140만개 사업 안 해

2015년 경제총조사에서 우리나라 전체에서 약 390만개 사업체가 있는 것으로 조사됐다. 그런데 행정자료를 활용해 파악하니, 경제총조사에서는 조사되지 않았지만 사업활동을 하는 사업체가 230만개가 있으며, 행정자료에는 있지만 사업활동을 하지 않는 사업체도 140만개 정도 되는 것으로 파악됐다. 경제총조사 통계가 현실과 이렇게 다르다고 해서 경제총조사 통계가 엉터리라 비난할 수는 없다. 행정자료를 통해 새로이 파악된 사업체들은 기존 통계에서 조사대상에 해당하는 사업체의 요건에 해당되지 않았을 뿐이다.

일본의 2015년 경제총조사에서는 공공부문을 빼고 약 500만개 사업체가 존재하는 것으로 파악됐는데, 실제로 존재하지만 조사대상에 포함되지 않은 사업체가 얼마나 있는지는 파악조차 되지 못하고 있다. 미국의 경우 2017년 경제센서스를 위해 미국 내에 있는 전체 사업체 모집단을 파악하는 작업을 했는데, 미국 상무부 센서스국이 얼마 전 발표한 자료를 보면 미국에 약 2,400만개 사업체가 있으며, 그중 약 800만개가 경제센서스 조사대상이 되었다.

우리나라에 있는 기업과 사업체의 전체 모습을 이렇게 파악할 수 있게 된 것은 행정자료를 통계에 활용하였기 때문에 얻어진 효과다. 물론 우리나라 사업체 전체를 파악했다고 해서 경제센서스나 전국사업체조사 등 전수조사 통계에서 반드시 이들을 모두 조사해야 된다는 것은 아니다. 실제 조사에는 여러 요인을 고려해 조사대상 그룹을 선정한다. 모두 조사는 하지 않는다 하더라도 지금에 와서나마 우리나라 사업체의 전체 숫자와 소재를 파악할 수 있게 되었다는 것은 대단히 의미있는 일이다.


민주주의는 건전한 공론장 없이는 성립되지 않는다. 공론장이 건전해지려면 객관적 현실 인식을 공유해야 하며 그 바탕이 되는 게 통계다. 통계가 흔들리면 정책도 여론도 왜곡될 수밖에 없다. 가짜뉴스도 통계 왜곡에서 출발한다. 언론인은 통계 해석을 잘못하면 ‘사회의 공적’이 될 수 있지만 잘하면 ‘해석특종’을 할 수 있다. 통계전문가인 이재형 박사가 통계에 얽힌 재미있는 얘기들을 풀어낸다. 한국개발연구원(KDI)에서 일하는 그는 <국가통계시스템발전방안> <한국의 산업조직과 시장구조> 등 많은 연구와 저술을 해왔고 통계청 통계개발원장을 역임했다. [편집자]

편집 : 김정민 기자

저작권자 © 단비뉴스 무단전재 및 재배포 금지