한국 IT 발전소 ‘데이터댐’ 어디까지 왔나

[머니S리포트-디지털 뉴딜 2.0 짚어보기①] 한 해 만에 급성장한 규모, 내실은 아직 물음표

 
 
기사공유
  • 카카오톡 공유
  • 카카오톡 공유
  • 네이버 블로그
  • 카카오스토리
  • 텔레그램 공유
  • url 공유
편집자주|‘디지털 뉴딜’은 ‘그린 뉴딜’과 함께 현 정부 대표 정책인 ‘한국판 뉴딜’의 양대 축을 이뤄온 사업이다. 신종 코로나바이러스 감염증(코로나19) 대유행에 따른 경제위기를 극복하기 위한 D(데이터)·N(네트워크)·A(인공지능) 기반 대한민국 회복전략으로 정의된다. 지난해 7월 발표 이후 올해까지 약 10조1000억원의 예산이 ‘디지털 뉴딜’에 투입됐다. 한 해 동안 거둔 성과를 바탕으로 최근 정부는 ‘한국판 뉴딜 2.0’을 발표했다. ‘디지털 뉴딜’도 2.0버전으로 업그레이드되며 2025년까지 총 49조원 규모의 투자가 추진된다. 핵심사업인 ‘데이터댐’의 비중이 더욱 높아지고 ‘메타버스’가 새로운 키워드로 포함됐다. 이들을 중심으로 ‘디지털 뉴딜 1.0’의 흔적을 살펴보고 ‘디지털 뉴딜 2.0’이 나아갈 길을 짚어본다.
디지털뉴딜로 데이터댐 건설이 한창이다. 갈수록 거대해지는 규모에 따라 성과와 기대도 커진다. 하지만 ‘부실공사’에 대한 우려의 목소리도 조금씩 나오고 있다. /그래픽=김영찬 기자
디지털뉴딜로 데이터댐 건설이 한창이다. 갈수록 거대해지는 규모에 따라 성과와 기대도 커진다. 하지만 ‘부실공사’에 대한 우려의 목소리도 조금씩 나오고 있다. /그래픽=김영찬 기자
◆기사 게재 순서
(1) 한국 IT 발전소 ‘데이터댐’ 어디까지 왔나
(2) 가상융합경제서 뒤쳐지는 韓, 전략이 필요하다
‘디지털 뉴딜’은 정보통신기술(ICT)을 전 산업 분야에 융합함으로써 경제위기를 극복하고 일자리를 창출하기 위한 국가 디지털 대전환 프로젝트다. 디지털 역량 확보를 위해 지난 7월부터 1년여간 마중물 재정투자와 제도개선 등이 추진됐다.

디지털 뉴딜 사업 중에도 첫손에 꼽히는 것은 ‘데이터댐’이다. ‘한국판 뉴딜’ 10대 대표과제에도 포함된 이 댐은 물 대신 데이터를 모아둔다. 현실의 댐이 가둔 물을 각종 용수나 전력생산에 쓰듯 빅데이터를 수집·가공해 인공지능(AI) 분야를 비롯해 다양하게 유통·활용함으로써 각종 산업 고도화와 부가가치 창출을 꾀한다. 맡은 역할로 과거 미국의 대공황을 이겨낸 원조 뉴딜의 후버댐에 비유되기도 한다.



물 아니라 데이터 가둔다… 디지털 뉴딜 대표사업 ‘데이터댐’


‘데이터 댐’ 사업은 크게 ▲공공데이터 개방·연계 확대 ▲생활 밀접 분야 빅데이터 구축·활용 확대 ▲데이터 거래·유통 활성화 ▲AI 학습용 데이터 구축 ▲5G 이동통신 기반 융합서비스 개발 ▲AI 융합 활용 고도화 ▲지식정보 온라인 통합 플랫폼(디지털 집현전) 등으로 나뉜다. 이 중 AI 학습용 데이터 구축과 각종 데이터 개방·유통이 사업 전반의 근간이다.

산업 분야별 데이터 공급·활용을 위한 빅데이터 플랫폼의 경우 주무부처인 과학기술정보통신부가 2019년 금융·환경·문화·교통·헬스케어·유통·통신·중소기업·지역경제·산림 10개 분야 플랫폼(100개 센터)을 구축·운영 중이며 농식품·해양수산·소방안전·스마트치안·라이프로그·디지털산업혁신 6개 플랫폼도 지난해 추경으로 추가 구축됐다. 구축된 빅데이터 플랫폼을 통해 지난해까지 3000종, 올해 4000종 이상의 데이터가 축적·개방됐다.

특히 AI 학습용 데이터의 경우 과기정통부와 구축사업 주관기관인 한국지능정보사회진흥원(NIA)이 올해 6월 첫 ‘수문 개방’을 했다. 지난해 구축된 음성/자연어·헬스케어·자율주행·비전·국토환경·농축수산·안전·기타(패션 등) 8대 분야 170종의 AI 학습데이터 약 4억8000만건이 ‘AI허브’ 웹사이트를 통해 먼저 개방됐다.

이 데이터 구축에는 국내 주요 AI·데이터 전문기업뿐 아니라 주요 대학(서울대·한국과기원 등 48개), 병원(서울대병원·아산병원 등 25개) 등 총 674개 기업·기관이 참여했다. 경력단절여성·취업준비생 등 국민 누구나 참여할 수 있는 크라우드소싱 방식을 도입해 국민 4만여명이 구축 과정에 참여했다. 이를 통해 과기정통부는 당초 목표였던 2만명을 크게 상회하는 일자리 창출이 가능할 것으로 기대한다.

데이터댐 개념도. /자료=과기정통부, 그래픽=김영찬 기자
데이터댐 개념도. /자료=과기정통부, 그래픽=김영찬 기자



디지털 뉴딜 2.0 맞아 확장공사… 내년 예산도 56%↑


과기정통부가 디지털 뉴딜 1주년을 맞아 발표한 자료에 따르면 소프트웨어(SW)·시스템통합(SI)기업들의 데이터댐 사업 참여로 데이터 공급기업은 2019년 393개에서 올해 1126개로 2.9배, AI 공급기업은 2019년 220개에서 올해 991개로 4.5배 증가했다.

빅데이터 플랫폼 4036종, AI 학습용 데이터 4억8000만건, 공공데이터 10만5000개 등 10억건 이상 데이터가 구축·개방·활용되면서 올해 국내 데이터 시장도 전년 대비 14.3% 성장했다. 데이터·AI 바우처는 12만7000개사에 지원됐고 이 중 12만개사(94.6%)가 비(非) ICT기업으로 조사됐다.

정부는 이런 성과를 바탕으로 ‘디지털 뉴딜 2.0’에서도 데이터댐을 중심으로 디지털 전환을 가속한다는 전략이다. 2025년까지 AI 학습용 데이터 1300종을 구축하고 분야별 빅데이터 플랫폼 31개를 마련하는 것을 목표로 삼았다. 구축된 데이터를 산업 여러 영역에서 활용할 수 있도록 가명정보 결합, 분야별 활용 경진대회 등을 통해 민간 활용을 촉진한다. AI의 경우 지역 거점 중심 선도사업도 추진한다.

내년도 과기정통부 예산에도 디지털댐의 비중이 크다. 2022년 정부 예산안과 기금운영계획안에 편성된 과기정통부 예산·기금은 전년대비 6.3% 증가한 총 18조6109억원이다. 디지털 뉴딜 예산은 2조8339억원으로 35.7% 증가했다. 이 중 데이터댐이 1조4642억원으로 51.7%의 비중을 차지한다. 올해보다도 56.2% 늘어났다.

국내 데이터 산업 시장 규모. /자료=과기정통부, 그래픽=김영찬 기자
국내 데이터 산업 시장 규모. /자료=과기정통부, 그래픽=김영찬 기자



21세기판 인형 눈알 붙이기? 수질관리 필요성 대두


데이터댐은 디지털 뉴딜의 플래그십 프로젝트답게 정부가 의욕적으로 추진 중이고 민간의 관심도 뜨겁다. 하지만 마냥 순조로운 것만은 아니다. 자주 지적이 나오는 것은 크라우드소싱으로 진행되는 AI 학습용 데이터 구축사업이다. AI 분야의 ‘데이터 갈증’을 해소해주면서 일자리 창출과 직결된 사업이지만 겉으로 나타난 성과를 액면 그대로 받아들이진 않는 분위기다.

AI 학습용 데이터 구축에 크라우드소싱으로 참여한 4만여명 중 61%가 취업준비생, 경력단절여성, 실업자 등 고용 취약계층이다. 이 크라우드워커들은 간단한 교육을 거쳐 주로 데이터 라벨링 작업에 참여한다. 강아지와 고양이가 함께 찍힌 사진이면 각각에 강아지, 고양이 어노테이션(주석)을 다는 식으로 AI가 구분해 학습할 수 있게 하는 작업이다. 그 특성상 ‘인형 눈알 붙이기’에도 곧잘 비유된다.

SW공학 전문기업 씽크포비엘의 박지환 대표는 “올해 일부 공공기관의 특정 데이터셋 이미지 5만여장을 진단한 결과 AI 학습 관점에선 불과 231장으로 보일 수밖에 없을 만큼 편중된 것으로 나타났다”며 “도쿄패럴림픽에서 도요타 자율주행차가 선수를 쳐 운행이 중단된 사고가 발생한 것도 AI 학습용 데이터 오류나 편향 가능성을 검증하지 않았기 때문”이라고 짚었다.

데이터 컨설팅 전문기업 비투엔의 조광원 대표는 “수많은 데이터가 구축되고 있는데 그 품질에 대한 검증이 부족한 상태로 데이터댐에 축적되면 활용단계에서 더 많은 수고와 비용이 발생하고 자칫 문제로 이어질 수 있다”며 “더러운 물이 유입되면 댐 전체 수질이 나빠지는 것과 같다. 지금까지 데이터의 양적인 측면에 집중했다면 이제 질적인 측면이 고려돼야 한다”고 지적했다.

크라우드워커들이 작업한 데이터의 질도 지적되지만 이 같은 일자리의 질도 문제로 거론된다. 결국은 ‘단기 알바’ 자리고 취업이 수월해질 만한 전문성이나 경쟁력을 키워준다고 보기도 어렵기 때문이다. 개발인력난을 겪는 SW업계 일부에선 이들이 데이터댐 구축 일선의 중소기업에 취업해 역량을 키울 수 있도록 정부 지원책 방향을 수정할 필요성도 제기한다.

NIA 관계자는 “9월 현재 크라우드워커 중 약 15%가 전년에도 참여했고 올해 연속해서 업무를 수행 중이다. 이들이 더 좋은 기회를 가질 수 있도록 AI·데이터 역량 교육도 확대하고 있다”며 “데이터 품질의 경우 지난 6월 개방 이후 별도 창구를 통해 이용자 피드백을 받아 집중개선기간을 운영 중이고 올해 구축된 데이터에 대해서는 3단계에 걸친 검증 및 보완 프로세스를 진행할 예정”이라고 설명했다.

데이터 바우처 사업 추진 체계. /자료=한국데이터산업진흥원
데이터 바우처 사업 추진 체계. /자료=한국데이터산업진흥원
데이터 바우처 사업에도 잡음이 있다. 이는 중소기업 등이 필요한 데이터 구매나 가공서비스를 전문기업에게 제공받을 수 있도록 지원하는 제도다. 하지만 일부 공급기업이 역량 이상의 욕심을 내거나 교육·컨설팅 등 끼워팔기를 시도했고 필수적이지 않은 경비를 과다 지출하는 일도 있었다. 일부 수요기업에서도 리베이트를 요구하는 등 악용 사례가 발생했다.

이에 올해부터 주관기관인 한국데이터산업진흥원이 사업대가 산정 방식을 지원사업 형태로 변경하자 가공서비스 제공사 측에서 반발하고 나섰다. 용역사업 형태로 진행되던 기존과 달리 4대보험을 포함한 제반 경비 대부분이 인정되지 않는 데다 참여 인력의 실제 급여 내역도 제출하는 등 까다로워졌다. SW진흥법에 따른 적정 대가가 적용되지 않고 있다는 주장이다. 이밖에 사업 감리를 수행하는 외부 전문가 일부의 이해도 부족과 ‘갑질’에 대한 불만도 제기됐다.

데이터산업진흥원 관계자는 “제도 취지와 동떨어진 악용 사례들이 있었기에 올해부터 실 투입 인력과 참여율 등도 관리하기 위한 조치”라며 “데이터 가공은 SW개발과 성격이 다소 다르므로 SW사업 대가산정 가이드를 적용하기엔 명확히 일치하지 않아 좀 더 적합한 규정을 준용했다. 용역 형태가 아니라 다자간 협약 방식을 택한 이유에는 데이터산업진흥원이 관여함으로써 수요기업의 갑질을 예방하려는 의도도 있다”고 설명했다.



한국 IT산업의 미래, 건실하게 지어야


전문가들은 데이터댐의 규모도 중요하지만 이제 내실을 다져야 할 시점이라고 강조한다. 다양한 산업 분야 활용이 더욱 본격화되면 문제를 바로잡으려 해도 이미 늦기 때문이다. 공공데이터부터 편향 수준을 점검하고 객관적으로 지표화하는 진단을 시행할 필요성도 제기된다. 지난 구축 결과에 대한 검증이 필요하다는 지적이다.

머신러닝·분석 전문업체인 리비젼컨설팅의 전용준 대표는 “1년 내, 3년 내 얼마의 측정 가능한 실질적인 효과를 낼 수 있는가를 잣대로 재평가한다면 아마도 현재 사업들 대부분이 원점에서 재검토받게 될 것”이라며 “국민들과 데이터 업계·시장도 당장 지금부터 지속적으로 사용될 수 있는 데이터를 만들기를 바라고 그런 곳에 혈세가 사용돼야 한다”고 꼬집었다.

지난해 6월 더존비즈온 강촌캠퍼스에서 문재인 대통령이 개발자들과 차담회를 갖는 모습. 한국판 뉴딜 첫 현장행보로 이곳을 찾아 디지털뉴딜 핵심으로 데이터댐을 강조했다. /사진=청와대·뉴스1
지난해 6월 더존비즈온 강촌캠퍼스에서 문재인 대통령이 개발자들과 차담회를 갖는 모습. 한국판 뉴딜 첫 현장행보로 이곳을 찾아 디지털뉴딜 핵심으로 데이터댐을 강조했다. /사진=청와대·뉴스1
우려와 불만도 존재하지만 그럼에도 IT업계가 데이터댐에 기대하는 바는 크다. 세계적으로도 선도적인 행보이자 한국의 IT산업, 특히 AI와 데이터 분야의 미래를 좌우할 사업임은 분명하기 때문이다. 해당 분야에서 전례 없는 초대형 프로젝트이니만큼 올바른 방향으로 나아가 목표를 달성하기를 바라는 심정은 전문가 모두가 마찬가지였다.

날씨 데이터·서비스 전문기업 케이웨더의 윤현집 전략사업본부장(이사)은 “문제가 없는 것은 아니지만 데이터 산업을 키우고 데이터 기반 경제와 국가를 이루기 위해 꼭 필요한 정책”이라며 “기업이나 기관에서 부족하고 미숙한 점이 나오는 것은 세계 어느 나라도 가본 적 없는 길이기 때문일 수 있다. 가야 하는 길이니 설령 무리가 있더라도 가는 게 맞다”고 강조했다.

과기정통부 관계자는 “데이터 품질 관리에 대해서 고민이 많았던 것은 사실이다. 사전 검증 과정을 마련하는 등 개선을 꾀하고 있다”며 “크라우드워커의 경우 시급 등 여러 측면에서 장점이 있는 일자리로 마련했으나 한계점이 있는 것도 고려해 교육 제공 등으로 보완하는 노력을 지속하고 있다”고 말했다.

이어 “내년도 AI 학습용 데이터 구축사업은 360종 구축을 목표하고 있다”며 “수요를 파악해 대상 분야도 확대할 계획이며 자동 라벨링 등 기술 활용으로 보다 효율적인 구축을 추진하는 방안도 고려하고 있다”고 덧붙였다.
 

팽동현
팽동현 dhp@mt.co.kr  | twitter facebook

열심히 하겠습니다. 감사합니다.

이 기자의 다른기사 보기 >
  • 0%
  • 0%
  • 코스피 : 3020.54상승 14.3818:02 10/25
  • 코스닥 : 994.31하락 0.7618:02 10/25
  • 원달러 : 1168.40하락 8.718:02 10/25
  • 두바이유 : 85.53상승 0.9218:02 10/25
  • 금 : 82.57하락 0.5518:02 10/25
  • [머니S포토] 이재명 '경기도의회 의원들과 함께'
  • [머니S포토] 대권 잠룡 김동연, 독도의날 맞아 '반크' 격려 방문
  • [머니S포토] 野 잠룡 홍준표, 경제 대개혁 공약 발표
  • [머니S포토] 카카오페이 청약 첫날, 오전 경쟁률 3.68대 1…'증거금 7030억'
  • [머니S포토] 이재명 '경기도의회 의원들과 함께'

커버스토리

정기구독신청 독자의견