원시 데이터

원시 데이터

원시 데이터는 처음 수집된 상태의 자료로, 정제와 분석 전의 출발점이 되는 정보이다.

원시 데이터는 처음 수집된 상태의 자료를 뜻하며, 가공 데이터처럼 해석을 위해 정리되기 전의 출발점이 된다.^[3]^[5] 이 문서에서는 원시 데이터가 무엇인지, 어떤 출처에서 확보하는지, 그리고 데이터 처리와 데이터 무결성 관점에서 어떻게 다루는지 정리한다.^[2]^[6]

1. 개요

원시 데이터는 데이터 소스에서 처음 받은 상태의 자료로, 아직 분석 목적에 맞게 정리되거나 변환되지 않은 정보를 가리킨다.^[3]^[5] 연구자는 이 자료를 바탕으로 정제, 요약, 시각화, 통계 분석을 진행하며, 그 결과로 가공 데이터가 만들어진다.^[2]^[6]

원시 데이터는 실험 기록, 센서 출력, 설문 응답 원본, 시스템 로그처럼 최초 관측값에 가까운 형태로 남는 경우가 많다.^[4]^[5] 이런 자료는 후속 분석의 출발점이 되지만, 그대로 읽기 어렵거나 오류와 중복을 포함할 수 있어 추가 처리가 필요하다.^[2]^[6]

2. 원시 데이터와 가공 데이터의 차이

원시 데이터는 연구나 업무 과정에서 처음 확보한 기록 자체를 뜻하고, 가공 데이터는 그 기록을 해석과 보고에 맞게 다시 구성한 결과를 뜻한다.^[2]^[3] 예를 들어 개별 측정값의 집합은 원시 데이터에 가깝고, 평균값이나 범주별 요약표는 가공 데이터에 가깝다.^[2]^[4]

이 구분은 단순한 표현 차이가 아니라 재현성의 기준이 된다.^[5]^[6] 원본과 가공본을 구분해 두어야 누가, 언제, 어떤 규칙으로 데이터를 바꿨는지 추적할 수 있고, 이후 검토나 재분석도 수월해진다.^[5]^[6]

3. 데이터 수집 및 출처

원시 데이터는 직접 조사와 실험뿐 아니라 공개 데이터 포털, 대학 도서관 안내 페이지, 기관별 데이터 저장소를 통해서도 확보할 수 있다.^[1]^[4]^[6] 사회과학 분야에서는 논문, 과제, 연구 제안서에 필요한 자료를 찾기 위해 데이터베이스와 데이터 검색 안내를 함께 확인하는 경우가 많다.^[1]^[4]

공개 데이터는 접근성이 높지만, 제공 형식과 설명 수준이 서로 다르므로 메타데이터를 함께 읽는 것이 중요하다.^[1]^[6] 특히 데이터의 수집 시점, 단위, 변수 정의, 누락값 처리 기준을 함께 기록해 두면 이후 분석과 검증에서 혼선을 줄일 수 있다.^[5]^[6]

4. 처리 및 관리

원시 데이터는 분석 전에 형식 통일, 결측치 점검, 중복 제거, 변수명 정리 같은 전처리를 거친다.^[5]^[6] 또한 와이드 포맷과 롱 포맷처럼 구조를 바꾸는 작업도 분석 목적에 따라 필요할 수 있다.^[5]

이 과정에서는 고유 식별자와 수정 이력을 함께 관리하는 것이 중요하다.^[5]^[6] 원본과 변경본을 분리해 두면 분석 결과를 다시 확인할 수 있고, 데이터의 계보를 추적하기도 쉬워진다.^[5]

5. 보안과 무결성

원시 데이터에는 개인 식별 정보나 민감 정보가 포함될 수 있으므로, 가능한 한 이른 단계에서 비식별화를 적용하고 접근 제어를 제한해야 한다.^[3]^[5] 보안은 단순히 파일을 잠그는 문제가 아니라, 누가 어떤 데이터에 접근했고 어떤 변경을 했는지 관리하는 체계와 함께 작동한다.^[3]^[6]

데이터 무결성을 유지하려면 원본을 직접 덮어쓰지 않고, 수정 내용과 근거를 별도로 기록해야 한다.^[5]^[6] 이렇게 하면 원시 데이터의 출처와 변형 과정이 분리되어 보관되므로, 이후 검토와 재분석에서 원본의 의미가 흐려지지 않는다.^[3]^[5]