본문 바로가기
통계/기타

통계학이란 무엇인가?

by 부자 꽁냥이 2022. 11. 7.

전공이 통계학이지만 통계학이 무엇인지에 대해서 진지하게 고민하지 않았던 것 같다. 이번 포스팅에서는 통계학이 무엇인지 자료들을 찾아보고 내 생각과 결합하여 나름 정리한 내용을 소개하고자 한다.


   통계학이란 무엇인가?

1) 통계란 무엇인가

통계학을 말하기 전에 통계가 무엇인지 짚고 넘어가려고 한다. 통계의 정의는 다음과 같다.

 

통계란 분석하고자 하는 집단에 대해서 조사하거나 실험을 통해서 얻는 자료 또는 이의 요약된 형태를 말한다.

 

통계의 정의를 예를 들어서 파헤쳐보기로 한다. 아래 그림은 A 고등학교 3학년 학생들의 수학 성적을 조사하는 과정을 나타낸 것이다.

 

먼저 통계는 분석하고자하는 집단을 특정한다. 여기서는 A 고등학교 3학년 전체 학생 또는 그중에서 추출된 3학년 1반 학생이 될 수도 있다. 분석하고자 하는 집단을 A 고등학교 3학년 1반으로 정해졌다고 하자. 다음으로 각 학생의 수학 성적을 조사한다. 이는 집단에서 조사한 자료가 된다. 이때 각 학생들의 수학 성적 자체가 통계가 될 수 있으며 이를 평균으로 요약한 값도 통계라 할 수 있다.


2) 통계학이란 무엇인가?

통계가 무엇인지 알았으니 이제 통계학이 무엇인지 알아보자. 통계학의 정의는 다음과 같다.

 

통계학이란 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 자료를 수집하고, 정리하고, 표현하고 분석하는 이론과 방법을 연구하는 학문이다.

 

정의를 하나 하나 살펴보자. 통계학은 불확실한 상황이 필연적으로 발생한다.

여기서 불확실성이란 무엇일까?

불확실성을 이야기하기전에 몇 가지 통계 용어를 알아야 한다.

 

먼저 모집단은 관심 대상 또는 분석 대상이 되는 전체 집단이다. 반대로 표본은 모집단에서 추출된 자료이다. 쉽게 말해 표본은 모집단의 부분 집합인 것이다. 아래 그림은 모집단과 표본의 예시를 나타낸 것이다. 우리나라 전체 국민을 모집단이라 한다면 추출을 통해 100명을 뽑은 국민들은 표본이 되는 것이다.

다음으로 모수는 모집단의 특성으로써 모집단의 평균을 나타내는 모평균이 모수의 한 예이다. 통계량은 표본의 특성으로써 표본의 평균을 나타내는 표본 평균이 통계량의 한 예이다. 아래 그림은 모수와 통계량의 예시를 나타낸 것이다. 모수는 모집단의 특성으로 여기서는 우리나라 전체 평균 키로 예를 들었지만 평균 몸무게도 될 수 있는 것이다. 그리고 통계량은 표본의 특성으로 100명의 평균 키를 예로 들 수 있다.

이제 불확실성을 이야기할 수 있다.

 

불확실성은 모집단에서 추출된 표본으로 얻은 통계량과 모수간 일치하지 않는 성질을 말한다.

 

이는 모집단을 대상으로 계산된 것이 아니기 때문에 당연하게도 통계량은 모수와 정확하게 일치하지 않는다. 그렇다면 이러한 질문이 나올 수 있다.

그럼 표본을 추출하지 않고

모집단에서 모수를 직접 계산하면 불확실성을 없앨 수 있는 거 아냐?

 

맞다. 하지만 이 경우는 모집단이 아주 작거나 크더라도 계산 비용이 적으면 모수를 바로 계산해서 불확실성을 없앨 수 있다. 달리 말하면 모집단이 (거의) 무한하거나 유한하더라도 계산 비용이 현실을 뛰어넘는다면 표본을 추출할 수밖에 없으므로 불확실성이 생긴다는 것이다. 예를 들어 우리나라 전 국민의 평균 키를 계산한다고 하면 모든 사람의 키가 데이터 베이스에 저장되어 있지 않다면 일일이 설문조사를 통해 또는 직접 키를 일일이 다 잰 다음 평균 키를 알 수 있을 것이다. 하지만 이는 현실적으로 불가능하다. 따라서 표본을 추출하여 평균 키를 계산하여 전체 국민 평균 키를 추정하는 것이다.

 

이제 다음을 생각해보자.

 

통계학은 자료를 수집하고, 정리하고, 표현하고 분석하는 이론과 방법을 연구한다.

 

이 말은 통계학의 분야가 자료를 수집하는 분야, 정리하는 분야, 표현하는 분야, 분석하는 분야 총 4가지 카테고리가 있다는 것을 의미한다. 왜 4가지 카테고리가 있느냐 하면 통계 분석 과정이 일반적으로 4단계로 이루어지기 때문이다.

통계 분석 과정을 하나씩 살펴보자.

 

먼저 분석하고자 하는 집단으로부터 자료를 수집한다. 자료를 수집하는 데에는 일정한 규칙이 있을 수 있고 또는 랜덤 샘플링을 이용하여 수집하기도 한다. 만약 자료가 이미 수집되어 있는 경우는 자료 수집 과정을 생략할 수도 있다.

 

하지만 수집된 자료는 그 자체로 분석하기가 어려운 경우가 있다. 따라서 수집된 자료를 분석 용도에 맞게 그리고 분석에 용이하도록 정리한다. 이 과정에서는 이상치나 결측된 데이터를 처리하는 것과 범주형 데이터를 숫자로 변환 그리고 자료를 요약하는 작업도 포함될 수 있다.

 

정리된 자료는 이해하기 쉽도록 시각화하여 표현하기도 한다. 그리고 분석 과정에서는 이러한 시각화 결과를 해석하여 결론을 도출한다. 이때 자료를 시각화하지 않고 바로 분석할 수도 있다.

 

통계학의 분야는 앞에서도 이야기했듯이 자료를 수집하는 분야, 정리하는 분야, 표현하는 분야, 분석하는 분야 총 4가지 카테고리가 있으며 각 카테고리별로 다양한 통계적 방법론, 이론들을 연구한다.

 


3) 통계학의 필요성

a. 통계학은 통계 분석뿐만 아니라 분석 또는 실험 목적에 맞게 데이터를 설계하고 수집하는데 중요한 역할을 한다.

 

b. 통계학은 단순히 요약된 숫자가 아닌 이에 대한 통계적 해석을 제공함으로써 정책을 결정하는 사람이 합리적인 의사결정을 할 수 있도록 도와준다.

 

c. 통계학은 복잡한 자료를 단순화하여 누구나 시각적으로 쉽게 이해할 수 있도록 도와준다.


이번 포스팅에서는 나 스스로 통계학이 무엇인지 곱씹어보고 통계학이 무엇이고 왜 필요한지를 나름 정리해보았다. 통계학을 전공했지만 통계학이 무엇인지 진지하게 고민을 안 해서 그런지 글을 쓰는데 꽤나 오래 걸렸고 이러한 나 자신을 반성하게 되었다. 

 

- 참고 자료 -

현대 통계학 강금석/정우석 공저


댓글


맨 위로