research notes

확률통계(2) - 기술통계 본문

인공지능 수학/확률 및 통계

확률통계(2) - 기술통계

forest62590 2022. 8. 15. 14:44
728x90

1. 확률통계 기초개념

□ 통계학의 분류

  • 기술통계(descriptive statistics): 조사해서 수집한 데이터를 수치나 표, 그래프 등으로 정리하고 데이터 전체가 나타내는 경향이나 성질을 파악하는 방법을 기술통계라고 한다.
  • 추측통계(inference statistics): 수집한 샘플(표본이라고도 부른다)에서 모집단(전체)의 성질을 확률적으로 추측하는 방법. 즉, 전체를 조사하지 않고 무작위로 선택한 일부를 바탕으로 전체 상태를 예측하는 통계학이며 추정과 검정은 추측 통계의 핵심이 된다. 이 과정에서 표본은 전체에서 우연히 선택된 것에 불과하기 때문에 우연히 선택된 표본은 선택될 때마다 내용이 바뀐다.(즉, 확률의 개념이 적용된다)
    • (추정) 국민 전체에서 임의로 선택한 1000명을 대상으로 흡연율이나 국정 지지율 등을 조사하는 것
    • (검정) 어떤 의견이 올바른지 그른지를 전체를 조사하지 않고 임의로 선택한 일부를 바탕으로 판정(예. '최근 초등학생의 평균 신장이 증가했다')

□ 양적 데이터와 질적 데이터

 

데이터(data): 실험이나 관찰, 조사 등을 통해 얻은 연령과 신장 등의 변량에 대한 값

  • 변량(variable): 기온이나 강수량, 운동 기록, 키나 몸무게 등과 같이 측정 대상이 되는 항목
  • 양적 데이터 (quantitative, numeric): 수학 연산을 할 수 있는 수치 값
  • 질적 데이터 (qualitative, categorical):범주로 나누어지는 값

< 출처: https://www.youtube.com/watch?v=GlgA8OMgLxE&t=2s >

□ 통계용어

\(\bar{x}\) 평균값 \(\sigma\) 모표준편차
\(S^{2}\) 분산 \(X\) 확률변수
\(S\) 표준편차 \(\bar{X}\) 표본평균, 확률변수 X의 평균값
\(\mu\) 모평균 \(s^{2}\) 불편분산
\(\sigma^{2}\) 모분산 \(s\) 표본표준편차

2. 기술통계

□ 도수분포표

* 계급값: 계급을 대표하는 값을 말하며 주로 계급의 한가운데 값을 취한다. ex) 44, 55, 65, ...

 

□ 평균값(\(\bar{x}\))

- 데이터 합계를 총 개수로 나눈 것, \(\bar{x}=\frac{
x_{1} + 
x_{2} +
 ... +
x_{N} 
}{N} \)

- 데이터는 평균값 주변에 분포되어 있다.

- 데이터는 수치적으로 널리 퍼져있지만 그 널리 퍼져 있는 것 중에 하나의 수를 모든 데이터를 대표하는 수로 뽑은 것

- 평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸 것에 불과하다. 데이터가 그 주변에 어느정도 퍼저 있는지 또는 흩어져 있는지 알 수 없다.

- 평균값이 데이터의 분포를 대표하는 수치지만 분산과 표준편차는 그 대표값을 기점으로 해서 데이터가 대략 어느정도 멀리까지 위치해 있는지를 타나내는 통계량이다. 즉, 평균을 기준으로 흩어진 정도를 나타낸다.

 

* 상대도수를 이용한 평균값의 계산 = (계급값 x 상대도수)의 합계

 

□ 분산: 자료의 각 데이터가 분포의 중심을 나타내는 평균값에서 각각 어느 정도 떨어져 있는지를 나타내는 방법

 

분산(\( S^{2} \)) = 편차제곱 합/데이터 수 = \( \frac{
(x_{1}-\bar{x})^{2} + 
(x_{2}-\bar{x})^{2} +
 ... +
(x_{N}-\bar{x})^{2} 
}{N} \)

 

□ 표준편차: 평균값이 데이터의 분포를 대표하는 수치이나 표준편차는 그 대표값을 기점으로 해서 데이터가 대략 어느정도 멀리까지 위치해 있는지를 나타내는 통계량

(\(\textit{S}\)) = \(\sqrt{S^{2}}\)


References:

[1] 누워서 읽는 통계학, 와쿠이 요시유키, 한빛아카데미

[2] https://m.blog.naver.com/PostView.naver?blogId=ebspub&logNo=221834957862&targetKeyword=&targetRecommendationCode=1 

728x90

'인공지능 수학 > 확률 및 통계' 카테고리의 다른 글

확률통계(1) - 확률  (0) 2022.08.15
Comments