원시 데이터는 아직 데이터 처리나 해석을 거치기 전의 기록된 자료를 말한다.[1] 실험 기록, 조사 응답, 센서 출력, 공개 데이터의 원천값처럼 다양한 형태로 존재하며, 연구자는 이를 바탕으로 데이터 해석과 데이터 분석을 진행한다.[2] 다만 원시 데이터라고 해서 자동으로 객관적이거나 오류가 없다는 뜻은 아니며, 수집 맥락과 기록 방식에 따라 편향과 누락이 함께 들어갈 수 있다.[3]
1. 개요
원시 데이터는 연구와 실무의 출발점이 되는 자료다.[1] 아직 전처리가 적용되지 않았기 때문에, 값의 배열이나 필드 구조가 바로 분석 친화적이지 않은 경우가 많다.[2] 그래서 원시 데이터는 데이터과학에서 가장 먼저 정리와 검증의 대상이 된다.[5]
이 개념은 단순히 "날것"이라는 뜻으로만 이해하면 부족하다.[3] 원시 데이터는 데이터 소스가 어떻게 생성되었는지, 누가 어떤 절차로 기록했는지, 이후 어떤 방식으로 구조화될 수 있는지를 함께 보여 주는 재료다.[4] 같은 값이라도 수집 목적과 기록 매체가 다르면 해석의 범위가 달라진다.[2]
2. 의미와 범위
원시 데이터의 범위는 실험실의 측정값에서 행정 기록, 설문 응답, 공공 데이터의 원천 파일까지 넓다.[4] 데이터 세트를 이루는 초기 행과 열은 이후 분석을 위한 기준점이 되며, 연구자는 이 기준점을 보존한 채 필요한 정보만 단계적으로 추출한다.[5] 이 과정에서 원본 값과 파생 값이 뒤섞이지 않도록 구분하는 일이 중요하다.[1]
원시 데이터는 데이터 표현의 문제와도 연결된다.[2] 같은 자료라도 원천 기록을 그대로 둘지, 결측과 이상치를 정리한 뒤 사용할지는 분석 목적에 따라 달라진다.[5] 따라서 "원시"라는 말은 완전한 무가공 상태를 뜻하기보다, 아직 주요 변환 규칙이 적용되지 않은 초기 상태를 가리킨다고 보는 편이 정확하다.[3]
3. 수집과 출처
원시 데이터는 보통 데이터 수집 단계에서 생긴다.[4] 연구자는 직접 관찰과 측정을 수행하거나, 기관과 플랫폼이 공개한 자료를 내려받아 출처를 확인한다.[4] 이때 데이터 소스가 누구에게서, 어떤 조건으로, 어떤 주기와 형식으로 만들어졌는지를 기록해 두어야 나중에 같은 조건으로 재현할 수 있다.[6]
공개 자료를 활용할 때는 원천 데이터가 어떤 기준으로 모였는지 살펴봐야 한다.[4] 예를 들어 국제 통계나 공공 보고용 자료는 범위가 넓고 편리하지만, 각 항목의 정의와 집계 기준이 제각각일 수 있다.[4] 그래서 원시 데이터는 양이 많을수록 좋은 것이 아니라, 맥락이 충분히 설명될수록 더 쓸모 있는 자료가 된다.[3]
4. 전처리와 분석
원시 데이터를 바로 결론으로 쓰는 경우는 드물다.[1] 보통은 전처리를 통해 중복, 결측, 형식 불일치, 이상치를 정리하고, 필요하면 데이터 구조화에 맞춰 형태를 바꾼다.[5] 이 단계에서 자료는 분석 가능한 상태로 바뀌며, 이후 통계학적 검토나 모델링에 투입된다.[2]
전처리는 단순한 청소 작업이 아니라 해석 조건을 정하는 과정이다.[6] 어떤 값은 제거하고 어떤 값은 보정할지, 어떤 변수를 묶고 어떤 변수를 분리할지에 따라 결과가 달라질 수 있기 때문이다.[5] 그래서 원시 데이터와 가공 데이터의 경계를 명확히 유지해야, 결과의 책임 소재와 해석 가능성도 함께 보존된다.[2]
5. 관리와 무결성
원시 데이터는 분석보다 먼저 관리가 필요하다.[6] 파일명, 버전, 생성 시각, 수정 이력, 접근 권한 같은 정보가 정리되어야 데이터베이스나 저장소 안에서 자료가 뒤섞이지 않는다.[1] 특히 여러 사람이 함께 쓰는 환경에서는 재현성을 보장할 수 있는 기록 체계가 중요하다.[6]
무결성은 원시 데이터의 핵심 가치 중 하나다.[3] 값이 한 번 바뀌면 이후의 데이터 해석과 데이터 분석 전체가 흔들릴 수 있으므로, 변경 내역을 추적하고 원본과 파생본을 분리해 두는 관행이 필요하다.[6] 이런 관리 방식은 단순 보관을 넘어 연구 책임성과 결과의 신뢰성을 함께 지키는 장치다.[3]
6. 보안과 보존
원시 데이터에는 개인 정보, 민감 정보, 내부 기록처럼 보호가 필요한 항목이 섞일 수 있다.[3] 그래서 데이터 보안과 데이터 보호는 저장 단계에서부터 고려해야 한다.[6] 접근 제어를 두고, 권한을 나누고, 필요하지 않은 경우 외부 전송을 막는 방식이 기본이다.[6]
보존 전략도 중요하다.[6] 원본 파일은 암호화된 저장소나 분리된 보관 체계에 두고, 분석용 복사본은 별도 관리하는 방식이 일반적이다.[3] 데이터 유출을 막는 것뿐 아니라, 추후 문제가 생겼을 때 원래 상태를 확인할 수 있도록 원본성과 신뢰성을 유지하는 것이 핵심이다.[8]
8. 인용 및 각주
[1] Raw vs processed data, mee.group.shef.ac.uk(새 탭에서 열림)
[2] GSU Library Research Guides: Statistics and Data: Finding Raw Data, research.library.gsu.edu(새 탭에서 열림)
[3] Glossary: Raw Data - Critical Data Studies - Purdue University, purdue.edu(새 탭에서 열림)
[4] Databases & Subject Guides: Statistical Information & Data: Home, guides.libs.uga.edu(새 탭에서 열림)
[5] Raw Data Processing Method, link.springer.com(새 탭에서 열림)
[6] Raw Data Management – Research and Data Science Hub, data.poverty-action.org(새 탭에서 열림)
[7] World Bank Open Data, data.worldbank.org(새 탭에서 열림)
[8] Security levels, tb-manual.torproject.org(새 탭에서 열림)