원천 데이터

원천 데이터

원천 데이터는 분석, 연구, 운영 시스템에서 직접 수집되거나 기록된 최초의 데이터로, 이후의 정제·변환·집계·모델 학습을 지탱하는 기준이 된다.

원천 데이터는 분석과 연구의 출발점이 되는 최초 기록으로, 이후의 정제, 변환, 검증, 해석 과정이 이 자료를 기준으로 이어진다.^[1]^[3] 임상 연구에서는 연구 수행과 규정 준수를 입증하는 근거 자료가 되고, 데이터 분석에서는 출처와 수집 경로를 추적할 수 있는 기초 입력이 된다.^[1]^[2]

1. 개요

원천 데이터는 원본 기록 자체에 가깝기 때문에, 값의 정확성보다 먼저 기록의 출처와 생성 맥락이 중요하다.^[2]^[3] 이 단계에서 데이터가 어떻게 만들어졌는지 분명하지 않으면 이후의 데이터셋, 요약 통계, 시각화 결과도 신뢰하기 어렵다.^[3]

원천 데이터는 단일 형식으로만 존재하지 않는다. 관찰 기록, 설문 응답, 장비 출력, 시스템 로그, 수동 입력처럼 서로 다른 형식이 섞일 수 있으며, 조직은 이를 같은 기준으로 보존하고 추적할 수 있어야 한다.^[2]^[3]

2. 임상 연구에서의 의미

임상시험에서는 원천 데이터가 피험자 관찰, 검사 결과, 의무기록, 처치 내역 같은 최초 기록을 가리킨다.^[1]^[2] 연구팀은 이러한 기록을 토대로 프로토콜 준수 여부를 입증하고, 규제와 기관 요구 사항을 충족했는지 설명해야 한다.^[1]^[2]

원천 데이터 검증(SDV)은 기록값이 실제 원본 자료와 일치하는지 확인하는 절차다.^[1] 이 과정은 단순한 교차 확인을 넘어서, 연구 문서가 남아 있는지, 수정 이력이 일관적인지, 누락이나 전사 오류가 있는지를 함께 살피는 품질 관리 수단으로 쓰인다.^[1]^[2]

3. 데이터 분석과 엔지니어링

데이터 분석 환경에서 원천 데이터는 내부 시스템, 외부 파일, API 응답, 수동 입력 등 다양한 경로로 들어온다.^[3] 분석가는 이 자료를 바로 해석하기보다 먼저 데이터셋으로 묶고, 데이터 정제와 변환 단계를 거쳐 분석 가능한 형태로 바꾼다.^[3]

이 과정에서 출처, 수집 시점, 변환 이력, 누락 여부를 함께 기록해야 한다.^[2]^[3] 같은 값이라도 어떤 시스템에서 언제 추출되었는지에 따라 의미가 달라질 수 있기 때문에, 원천 데이터의 추적 가능성은 분석 재현성과 직결된다.^[3]

4. 관리와 품질

원천 데이터의 품질은 정확성, 일관성, 추적 가능성으로 평가된다.^[1]^[2] 출처가 불분명하거나 일부 기록이 사라지면 통계적 추론, 시각화, 의사결정 과정에서 오류가 증폭될 수 있다.^[3]

그래서 조직은 접근 권한, 비식별화, 보존 정책, 변경 기록을 분리해 관리한다.^[1]^[2] 원천 데이터와 정제된 데이터의 역할을 구분하면, 필요한 경우 원본으로 되돌아가 검증할 수 있고, 학습 데이터나 보고용 데이터와도 책임 경계를 나눌 수 있다.^[2]^[3]

5. 같이 보기

6. 관련 문서

7. 인용 및 각주

^[1] Ppmc.ncbi.nlm.nih.gov(새 탭에서 열림)

^[2] Wwww.rochester.edu(새 탭에서 열림)

^[3] Wwww.coursera.org(새 탭에서 열림)

목차