데이터는 관측, 측정, 수집, 저장, 전송, 해석의 대상이 되는 정보 표현이다. NIST는 데이터를 의미를 지닌 기호의 배열이나 정보의 표현으로 설명하고, 컴퓨팅에서는 저장·전송·처리가 가능한 디지털 정보로 다룬다.[1][2] 통계에서는 데이터가 관측값과 분류값을 모아 현상을 설명하는 재료가 된다.[3][4]

1. 개념과 범위

데이터는 숫자 표나 설문 응답처럼 잘 구조화된 형식만을 뜻하지 않는다. 텍스트, 이미지, 센서 로그, 관측 기록, 행정 기록처럼 인간이나 기계가 읽을 수 있는 다양한 표현이 모두 데이터가 될 수 있다.[1][2]

데이터를 이해할 때는 값 자체보다 그것이 어떤 맥락에서 만들어졌는지가 중요하다. 기상 관측에서 수집된 기온강수량은 같은 숫자라도 관측 위치, 시각, 장비가 달라지면 의미가 달라진다. 이런 이유로 데이터는 처음부터 해석을 염두에 두고 설계되어야 한다.[2][4]

2. 데이터와 정보

같은 값이라도 어떤 기준으로 모았는지, 어떤 단위를 썼는지, 언제 어디서 수집했는지에 따라 의미가 달라진다. 그래서 데이터는 보통 메타데이터, 분류 규칙, 측정 방법과 함께 다뤄야 한다.[1][3]

맥락이 붙은 데이터는 서로 비교할 수 있고, 다른 자료와 결합해 정보로 읽힌다. 예를 들어 기상학의 관측값은 기상 체계 안에서 지표면 상태와 연결되고, 지구-시스템을 설명하는 더 넓은 자료망의 일부가 된다.[2][4]

3. 수집과 저장

데이터는 설문, 실험, 행정 절차, 로그, 센서, 원격탐사처럼 서로 다른 경로로 모인다. 컴퓨팅에서는 데이터베이스와 파일, 스트림, 백업 체계가 데이터를 다루는 기본 단위가 된다.[2][3]

현실 세계의 관측 데이터는 지하수의 변화, 해양학 관측, 기상학 실측처럼 자연 현상을 추적하는 데 특히 중요하다. 이런 자료는 현장 기록만으로 끝나지 않고, 장기 추세를 보기 위한 축적과 재사용이 핵심이 된다.[2][4]

4. 분석과 활용

데이터 분석은 데이터를 수집·정제·변환·요약·모델링해 해석 가능한 결과로 바꾸는 작업이다. 이 과정은 기상학의 전통적인 역할과도 맞닿아 있고, 오늘날에는 대량 데이터와 자동화 처리 환경까지 포함한다.[3][4]

사업, 공공정책, 연구, 운영 최적화에서 데이터는 단순 기록이 아니라 패턴을 찾고 미래를 추정하는 출발점이 된다. 그래서 데이터의 가치는 저장량보다도 어떤 질문에 답할 수 있는지, 그리고 지구-시스템처럼 복잡한 대상을 얼마나 일관되게 설명할 수 있는지에서 드러난다.[1][3]

5. 품질과 한계

데이터는 많다고 자동으로 정확해지지 않는다. 누락, 중복, 기준 변화, 측정 오차, 표본 편향이 있으면 같은 집합도 다른 결론을 낳을 수 있다.[1][3]

그래서 데이터는 생성 시점부터 해석 방식까지 함께 관리해야 하며, 문맥이 약한 자료는 넓은 용어보다 좁은 용어와 함께 설명하는 편이 안전하다. 특히 기온, 강수량, 지하수처럼 시간과 위치에 민감한 자료는 수집 조건과 갱신 주기를 분명히 적어야 한다.[2][4]

6. 관련 문서

강수량, 기온, 기상학, 기상 체계, 지표면, 지하수, 지구-시스템, 해양학

7. 인용 및 각주

[1] NIST CSRC, “data - Glossary | CSRC”, Ccsrc.nist.gov(새 탭에서 열림)

[2] Encyclopædia Britannica, “Data | computing”, Wwww.britannica.com(새 탭에서 열림)

[3] OECD, “OECD Glossary of Statistical Terms”, Wwww.oecd.org(새 탭에서 열림)

[4] Encyclopædia Britannica, “Statistics”, Wwww.britannica.com(새 탭에서 열림)