데이터공유

데이터-공유는 정부 기관이나 연구 주체가 보유한 정보를 인가된 사용자에게 통제된 방식으로 제공하여 활용성을 높이는 과정을 의미한다.

1. 개요

데이터-공유는 정부 기관이나 연구 주체가 보유한 정보를 인가된 사용자에게 통제된 방식으로 제공하여 활용성을 높이는 과정을 의미한다. 이는 단순히 정보를 공개하는 차원을 넘어, 공공 정책의 성과를 개선하고 학술 연구의 진보를 도모하기 위한 핵심적인 전략으로 평가받는다. 특히 뉴사우스웨일스주 정부와 같은 공공 부문에서는 데이터 공유 원칙을 수립하여 정보 접근성을 관리하고 있으며, 이를 위해 파이브 세이프와 같은 국제적인 위험 관리 모델을 도입하여 데이터의 안전한 유통을 보장하고 있다.^[4]

학계에서는 연구의 투명성을 확보하고 재현성을 높이기 위해 데이터 공유를 적극적으로 권장하는 추세이다. 대한통증학회지와 같은 학술지는 2022년 7월부터 데이터 공유 정책을 시행하며 연구 데이터의 개방을 독려하고 있다.^[2] 이러한 노력은 과거에 수집된 데이터를 새로운 연구 질문에 재사용함으로써 과학적 발견의 효율성을 극대화하려는 목적을 지닌다. 그러나 정책 입안자나 연구비 지원 기관의 폭넓은 지지에도 불구하고, 실제 학술 현장에서 연구자가 데이터를 외부에 공개하는 사례는 여전히 드문 실정이다.^[1]

데이터 공유는 교육 및 인도적 지원 분야와 같은 긴급 상황에서도 중요한 역할을 수행한다. 위기 상황이나 장기적인 재난 발생 시, 교육 당국과 개발 파트너는 다양한 목적을 위해 데이터를 생산하고 활용한다.^[3] 이 과정에서 데이터의 공유와 확산은 위기 관리 주기의 각 단계에서 발생하는 문제를 파악하고 대응책을 마련하는 데 필수적이다. 다만 데이터의 성격과 관리 주체에 따라 공유 과정에서 다양한 기술적, 제도적 장벽이 존재하며 이를 극복하기 위한 체계적인 접근이 요구된다.

결국 데이터 공유는 정보의 가치를 극대화하여 사회적, 학문적 성과를 창출하는 데 기여하는 중요한 기제이다. 98편의 학술 논문과 603명의 2차 데이터 사용자를 대상으로 한 조사 결과는 데이터 공유가 과학적 발전에 막대한 잠재력을 가지고 있음을 시사한다.^[1] 앞으로 데이터 공유가 활성화되기 위해서는 정보 보안과 활용 사이의 균형을 맞추는 정책적 노력이 지속되어야 한다. 데이터 관리의 투명성을 높이는 것은 미래의 불확실한 위험을 관리하고 더 나은 사회적 결과를 도출하기 위한 필수적인 과제로 남아 있다.

2. 공공 부문의 데이터 공유 체계

정부 기관은 보유한 정보를 인가된 연구 기관이나 타 부처에 제공함으로써 공공 서비스의 성과를 개선하고 효율성을 높이는 전략을 취한다. 뉴사우스웨일스주 정부는 이러한 과정에서 발생할 수 있는 위험을 관리하기 위해 Five Safes라는 국제적인 위험 관리 모델을 도입하였다. 이 체계는 데이터 공유 시 인적 요소, 프로젝트의 성격, 그리고 정보가 처리되는 환경 등 다섯 가지 안전 차원을 중심으로 접근 권한과 통제 방식을 구조화한다.^[4]

아일랜드의 경우 OGCIO 산하 데이터 거버넌스 유닛이 주도하여 데이터 공유 표준 프레임워크를 수립하였다. 이는 데이터 공유 및 거버넌스 법 2019에 근거하여 공공 서비스 전반에 걸쳐 안전하고 투명한 데이터 생태계를 조성하는 것을 목표로 한다. 해당 프레임워크는 각 기관이 실질적으로 데이터 공유를 이행할 수 있도록 구체적인 로드맵을 제시하며, 공공 부문의 디지털 전환을 지원하는 핵심적인 지침으로 기능한다.^[5]

학계와 연구 분야에서도 데이터 공유는 연구의 투명성을 확보하고 과학적 진보를 이끄는 필수적인 요소로 간주된다. 대한통증학회지는 2022년 7월부터 데이터 공유 정책을 시행하여 연구 결과의 재현성을 높이고 기존 데이터를 새로운 연구 질문에 활용할 수 있는 기반을 마련하였다.^[2] 98편의 학술 논문과 603명의 데이터 사용자를 대상으로 한 체계적 문헌 고찰에 따르면, 이러한 공유 체계는 연구 자원의 재사용성을 극대화하여 학문적 가치를 창출하는 데 기여한다.^[1]

3. 학술 연구 데이터 공유의 현주소

학계 내에서는 정책 입안자나 연구비 지원 기관, 그리고 학술지 편집진의 폭넓은 지지에도 불구하고 실제 연구자들이 자신의 연구 데이터를 타인에게 공개하는 사례는 드문 실정이다.^[1] 이러한 현상은 과학적 진보를 가로막는 요인으로 지목되며, 연구 결과의 재현성을 확보하고 기존 데이터를 새로운 연구 질문에 활용하는 데 제약이 된다.^[1] 실제로 98편의 학술 논문을 체계적으로 검토하고 603명의 이차 데이터 사용자를 대상으로 실시한 설문 조사 결과는 데이터 공유 활성화가 여전히 낮은 수준임을 시사한다.^[1]

연구 과정에서 산출된 데이터는 연구 종료 이후에도 보존되어 교육이나 후속 연구를 위한 재이용 자원으로 활용될 수 있다.^[9] 이러한 데이터의 생성부터 수집, 분석, 보존 및 재이용에 이르는 전 과정을 연구데이터 생애주기라고 정의하며, 연구자는 이를 체계적으로 관리해야 할 필요성이 커지고 있다.^[9] 특히 대학원생과 같은 예비 연구자들에게는 이러한 관리 역량을 습득하고 실천하는 것이 연구의 질을 높이는 핵심적인 과정으로 강조된다.^[9]

최근에는 국가연구개발사업과 연계하여 연구 성과물을 투명하게 관리하고 공유하려는 정책적 움직임이 구체화되고 있다.^[9] 일례로 대한통증학회지(Korean Journal of Pain)는 2022년 7월부터 데이터 공유 정책을 도입하여 연구의 투명성을 확보하기 위한 구체적인 방향을 제시하였다.^[2] 이와 같은 정책은 단순한 정보 공개를 넘어 학술 생태계 전반의 신뢰도를 높이고, 연구 데이터가 가진 잠재적 가치를 극대화하는 데 기여할 것으로 기대된다.^[2]

4. FAIR 데이터 원칙

FAIR 데이터 원칙은 현대 과학 연구에서 생성되는 방대한 양의 정보를 체계적으로 관리하고 공유하기 위한 핵심 지침이다. 이 원칙은 데이터가 발견 가능성(Findable), 접근성(Accessible), 상호 운용성(Interoperable), 재사용성(Reusable)을 갖추어야 함을 명시한다. 이러한 기준은 연구 결과의 재현성을 확보하고 기존 자료를 새로운 연구 질문에 활용하는 토대를 마련한다.^[1]

미국 국립보건원(NIH)을 비롯한 주요 연구 기관은 데이터 관리 및 공유 관행이 이러한 원칙과 일치하도록 강력히 권고한다. 이는 특정 연구 커뮤니티 내에서 통용되는 관행을 반영하면서도, 데이터의 활용성을 극대화하려는 목적을 지닌다.^[7] 특히 사회적 난제를 해결하기 위한 연구가 다양한 학문 분야와 맥락에서 도출된 정보를 필요로 함에 따라, 이 원칙의 중요성은 더욱 강조되고 있다.

고든 블레어(Gordon Blair)는 2016년에 정립된 이 원칙이 지난 10년간 변화한 연구 환경을 충분히 반영하지 못할 수 있다고 지적한다. 현대 과학은 수많은 출처로부터 전례 없는 규모의 데이터를 생산하고 있으며, 이에 따라 기존의 틀을 확장하려는 논의가 활발히 진행 중이다.^[8] 결과적으로 이 원칙은 단순한 정보 공개를 넘어, 데이터 공유 문화를 정착시키고 과학적 진보를 가속화하는 핵심적인 전략으로 자리 잡고 있다.

5. 데이터 공유의 도전 과제와 기회

현대 과학 연구는 다양한 원천에서 쏟아지는 방대한 양의 정보를 다루며, 사회적 난제를 해결하기 위해 여러 학문 분야를 아우르는 다학제적 연구의 중요성이 커지고 있다. 고든 블레어(Gordon Blair)는 이러한 복합적인 연구 환경에서 데이터를 효과적으로 통합하고 활용하기 위해 기존의 FAIR 데이터 원칙을 보완해야 한다고 주장한다. 2016년에 제정된 원칙을 넘어, 지난 10년간 새롭게 대두된 문제들을 해결할 수 있는 확장된 체계가 필요하다는 것이다.^[8] 서로 다른 연구 맥락에서 생성된 자료를 결합하는 과정은 데이터의 상호 운용성을 확보하는 데 있어 기술적, 구조적 난관을 동반한다.

비상 상황 교육(Education in Emergencies) 커뮤니티는 데이터 공유와 활용이 긴급한 특수 분야 중 하나이다. 재난이나 장기적인 위기 상황에서 교육 당국과 인도주의적 지원 단체, 그리고 개발 협력 파트너들은 각기 다른 목적을 위해 정보를 생산하고 소비한다. 이러한 이해관계의 차이는 데이터의 공유와 확산을 저해하는 요인이 되며, 위기 관리 주기의 각 단계에서 정보를 효율적으로 통합하는 데 어려움을 준다.^[3] 따라서 잠재적인 장벽을 사전에 예측하고, 위기가 교육 현장에 미치는 미묘한 영향을 추적하기 위한 체계적인 접근이 요구된다.

연구 문화를 개선하여 데이터 공유를 활성화하는 것은 과학적 진보를 위한 실질적인 기회로 이어진다. 연구자들이 자신의 데이터를 타인에게 공개하는 관행이 정착된다면, 기존 연구 결과의 재현성을 검증하고 과거의 자료를 새로운 연구 질문에 활용하는 선순환 구조를 만들 수 있다.^[1] 이는 단순히 정보를 개방하는 차원을 넘어, 연구 자원의 가치를 극대화하고 학문적 협력을 촉진하는 토대가 된다. 결과적으로 데이터 공유는 개별 연구자의 성과를 넘어 전체 과학 공동체의 지식 생산 역량을 강화하는 핵심 동력으로 작용한다.

6. 데이터 공유 가이드라인 및 실무

현대 과학 연구 환경에서 연구데이터 생애주기는 데이터의 산출과 수집, 분석을 거쳐 연구 종료 후 보존 및 재이용되는 전 과정을 포괄한다. 연구자는 이러한 생애주기에 대응하여 체계적인 연구데이터 관리 계획을 수립하고 실천해야 할 필요성이 강조된다.^[9] 특히 예비 연구자를 대상으로 하는 교육 과정에서는 연구 성과물의 보존과 교육적 활용을 위한 구체적인 지침을 제공하고 있다. 이는 단순히 데이터를 생성하는 단계를 넘어, 향후 다른 연구자가 해당 자료를 재이용할 수 있도록 관리하는 역량을 배양하는 데 목적이 있다.

공공 부문의 데이터 공유와 통합을 지원하기 위한 지침 또한 지속적으로 개선되고 있다. AISP는 2020년에 처음 발간한 데이터 공유 및 통합 안내서를 2025년에 전면 개정하여 최신 사례와 실무 지침을 반영하였다.^[6] 해당 자료는 공동의 목적을 설정하고 팀을 구성하며, 데이터 공유에 따른 위험과 이점을 평가하는 과정을 상세히 다룬다. 이러한 가이드라인은 지역사회 주도의 이니셔티브가 지속 가능한 데이터 활용 기반을 마련하고, 결과적으로 시민의 삶의 질을 개선하는 데 기여하도록 설계되었다.

효과적인 데이터 공유를 위해서는 연구 초기 단계부터 연구데이터 산출 계획을 수립하는 것이 필수적이다. 연구자는 데이터의 수집부터 분석, 그리고 최종적인 아카이빙까지의 전 과정을 설계하여 데이터의 투명성을 확보해야 한다.^[9] 또한, 공유된 데이터는 기존 연구의 재현성을 검증하는 도구로 활용될 뿐만 아니라, 새로운 연구 질문을 해결하기 위한 자산으로 기능한다.^[1] 지속적인 리소스 업데이트와 체계적인 관리 체계는 연구 데이터가 학술적 가치를 유지하고 다양한 분야에서 융합적으로 활용될 수 있도록 돕는 핵심 요소이다.