일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Tokenization
- word2vec
- 설명가능성
- Ai
- trustworthiness
- 자연어
- 지피티
- ML
- 머신러닝
- gpt2
- XAI
- AI Fairness
- GPT-3
- ChatGPT
- Bert
- 케라스
- Transformer
- cnn
- DevOps
- 딥러닝
- MLOps
- 신뢰성
- 챗지피티
- 챗GPT
- GPT
- 인공지능 신뢰성
- nlp
- 트랜스포머
- fairness
- 인공지능
- Today
- Total
research notes
확률통계(2) - 기술통계 본문
1. 확률통계 기초개념
□ 통계학의 분류
- 기술통계(descriptive statistics): 조사해서 수집한 데이터를 수치나 표, 그래프 등으로 정리하고 데이터 전체가 나타내는 경향이나 성질을 파악하는 방법을 기술통계라고 한다.
- 추측통계(inference statistics): 수집한 샘플(표본이라고도 부른다)에서 모집단(전체)의 성질을 확률적으로 추측하는 방법. 즉, 전체를 조사하지 않고 무작위로 선택한 일부를 바탕으로 전체 상태를 예측하는 통계학이며 추정과 검정은 추측 통계의 핵심이 된다. 이 과정에서 표본은 전체에서 우연히 선택된 것에 불과하기 때문에 우연히 선택된 표본은 선택될 때마다 내용이 바뀐다.(즉, 확률의 개념이 적용된다)
- (추정) 국민 전체에서 임의로 선택한 1000명을 대상으로 흡연율이나 국정 지지율 등을 조사하는 것
- (검정) 어떤 의견이 올바른지 그른지를 전체를 조사하지 않고 임의로 선택한 일부를 바탕으로 판정(예. '최근 초등학생의 평균 신장이 증가했다')
□ 양적 데이터와 질적 데이터
데이터(data): 실험이나 관찰, 조사 등을 통해 얻은 연령과 신장 등의 변량에 대한 값
- 변량(variable): 기온이나 강수량, 운동 기록, 키나 몸무게 등과 같이 측정 대상이 되는 항목
- 양적 데이터 (quantitative, numeric): 수학 연산을 할 수 있는 수치 값
- 질적 데이터 (qualitative, categorical):범주로 나누어지는 값
□ 통계용어
\(\bar{x}\) | 평균값 | \(\sigma\) | 모표준편차 |
\(S^{2}\) | 분산 | \(X\) | 확률변수 |
\(S\) | 표준편차 | \(\bar{X}\) | 표본평균, 확률변수 X의 평균값 |
\(\mu\) | 모평균 | \(s^{2}\) | 불편분산 |
\(\sigma^{2}\) | 모분산 | \(s\) | 표본표준편차 |
2. 기술통계
□ 도수분포표
* 계급값: 계급을 대표하는 값을 말하며 주로 계급의 한가운데 값을 취한다. ex) 44, 55, 65, ...
□ 평균값(\(\bar{x}\))
- 데이터 합계를 총 개수로 나눈 것, \(\bar{x}=\frac{
x_{1} +
x_{2} +
... +
x_{N}
}{N} \)
- 데이터는 평균값 주변에 분포되어 있다.
- 데이터는 수치적으로 널리 퍼져있지만 그 널리 퍼져 있는 것 중에 하나의 수를 모든 데이터를 대표하는 수로 뽑은 것
- 평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸 것에 불과하다. 데이터가 그 주변에 어느정도 퍼저 있는지 또는 흩어져 있는지 알 수 없다.
- 평균값이 데이터의 분포를 대표하는 수치지만 분산과 표준편차는 그 대표값을 기점으로 해서 데이터가 대략 어느정도 멀리까지 위치해 있는지를 타나내는 통계량이다. 즉, 평균을 기준으로 흩어진 정도를 나타낸다.
* 상대도수를 이용한 평균값의 계산 = (계급값 x 상대도수)의 합계
□ 분산: 자료의 각 데이터가 분포의 중심을 나타내는 평균값에서 각각 어느 정도 떨어져 있는지를 나타내는 방법
분산(\( S^{2} \)) = 편차제곱 합/데이터 수 = \( \frac{
(x_{1}-\bar{x})^{2} +
(x_{2}-\bar{x})^{2} +
... +
(x_{N}-\bar{x})^{2}
}{N} \)
□ 표준편차: 평균값이 데이터의 분포를 대표하는 수치이나 표준편차는 그 대표값을 기점으로 해서 데이터가 대략 어느정도 멀리까지 위치해 있는지를 나타내는 통계량
(\(\textit{S}\)) = \(\sqrt{S^{2}}\)
References:
[1] 누워서 읽는 통계학, 와쿠이 요시유키, 한빛아카데미
'인공지능 수학 > 확률 및 통계' 카테고리의 다른 글
확률통계(1) - 확률 (0) | 2022.08.15 |
---|