본문은 통계 관련 용어를 메모합니다.
가설 검정
모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론이다.
통계적인 유의성을 검정하는 것으로 유의성 검증 이라고도 한다.
가설의 두 가지
귀무가설 H0
비교하는 값과 차이가 없다는 것을 기본 개념으로 하는 가설이다.
대립가설 H1 (연구가설)
주장하는 가설로 차이가 있다는 것을 기본 개념으로 하는 가설이다.
직접 수행하기 불가능하여 귀무가설의 기각을 통해 받아들여 지는 반증을 거친다.
오류
제1종 오류(a error)
귀무가설 H0가 옳은데도 불구하고 H0를 기각하게 되는 오류이다.
제2동 오류(b error)
귀무가설 H0가 옳지 않은데도 불구하고 H0를 채택하는 오류이다.
기각역(critical region)
귀무가설 전제하에 구한 검정통계량의 분포에서 확율이 유의수준인 부분이다.
임계치(critical value)
주어진 유의수준에 따라 귀무가설의 기각 여부를 결정하는 기준점이다.
검정통계량
가설 검정을 위해서 사용하는 통계량을 말한다. 표본ㅌ
유의성
모집단에 대한 가설이 가지는 통계적인 의미이다.
유의수준 (Significance Level)
귀무가설이 사실임에도 기각하는 오류를 범할 확률이다.
유의수준 = 1 - 신뢰도
유의확률 (p-value)
영가설이 맞다고 가정할 때 얻은 결과 보다 극단적인 결과가 실제로 관측될 확률이다.
보통 0.05%의 유의 확률을 사용한다.
편차 (deviation)
평균과 관측값의 차이
분산 (variance)
편차의 제곱의 평균
표준편차 (standard deviation)
분산의 양의 제곱근
표준정규분포 (standard normal distribution)
평균은 0이고 표준편차가 1인 정규분포
정규분포 (normal distribution or 가우시안 분포: Gaussian distribution)
통계학에서 연속 확률 분포 중의 하나다.
T-Test
단일표본 T검정
독립표본 T검정
대응표본 T검정
Z-Test
모집단의 분산을 알고 있는 경우 사용
산포도(degree of scattering)
자료의 흩어진 정도 분산, 범위, 사분위수범위 등이 해당한다.
범위(range)
자료의 가장 큰값과 가장 작은값 간의 차이, 외부 특이점(Outlier)에 대한 처리가 필요하다.
사분위수(quartiles)
측정값을 정렬해서 4등분으로 나눈 것을 말한다.
모집단(population)
정보를 얻고자 하는 관심 대상의 전체 집합이다.
모수 (Parameter)
모집단의 특성을 기술하는 특정한 값을 말한다.
신뢰 구간 (confidence interval)
모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법이다.
정규성 검정
표본수 > 30 : 중심극한정리에 의해 정규성을 가지는 것으로 가정할 수 있음
30 > 표본수 > 10 : 정규성 검정 필요
10 > 표본수 : 정규성을 인정 받을 수 없음으로 비모수적인 통계 방법 사용
정규성 검정 방법
Kolmogorov-Smirnov test : 샘플의 수가 2000개 이상일때,
Sapiro-Wilks test : 샘플의 수가 4 - 2000개 이하일때,
모수적 방법 (Parametric)
표본 평균 검증
T 검정, Z 검정
표본 분산 검정
F 검증, 카이제곱 검정
비모수적 방법(Non-parametric)
정규분포가 아니거나 표본의 수가 적을때 사용
부호 검정 (Sign test)
관측치들 간에 크다 작다 혹은 같다라는 주장이 사실인지 검정
윌콕슨 부호 순위 검정
부호뿐만 아니라 관측치 간의 차이의 크기, 순위까지 고려하여 검정
크루스칼-왈리스 검정
3개 이상 집단의 중앙값 차이를 검정
외도 (Skewness)
크다 : 오른쪽 롱꼬리
첨도 (kurtosis)
크다 : 위로 솟다.
검정 통계량 (or 표본 통계량)
모집단 전체 조사가 힘든 경우 검정하기 위한 표본을 통계한다.
확률 분포
정규 분포, T 분포, 카이제곱 분포, F 분포
확률 분포 그래프의 X 좌표를 구한다.
확률 분포 (probability distribution)
확률 변수가 특정한 값을 가질 확률을 나태내는 함수를 의미한다.
이산 확률분포 (distribute of discrete random variable)
이산 확률 변수가 가지는 확률분포를 의미한다.
** 이산 확률 변수 (discrete random variable)
연속 확률분포 (continuous probability distribution)
확률 밀도 함수를 이용해 분포를 표현할 수 있는
경우를 의미한다.
** 연속 확률 변수 (continuous random variable)
확률 밀도 함수 (probability density function, PDF)
확률 변수의 분포를 나타내는 함수이다.
확률 질량 함수 (probability mass function, PMF)
이산 확률 변수에 의한 확률 분포 함수를 의미한다.
누적 분포 함수 (cumulative distribution function, CDF)
확률 변수가 특정 값보다 작거나 같은 확률을 나타낸다.
이항 분포 (binormial distribution)
연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포이다.
확률 변수 (random variable)
어떤 시행의 결과로 나타나는 각각의 실수값이다.
다항식 (polynomial)
1개 이상의 항으로 이루어진 식을 말한다.
다항식의 차수 (degree of polymormial)
각 항의 각 문자의 자수를 합친 것 중 가장 큰 값을 해당 다항식의 차수라 한다.
예) x^2 * y^3 은 5차수
X차 방정식
최고차 항의 차수가 X인 다항 방정식을 뜻한다.
방정식 (equation)
특정한 문자의 값에 따라 참/거짓이 결정되는 등식이다.
이때, 방정식을 참이 되게 하는 특정 문자의 값을 해(근)이라 한다.
실수
유리수 / 정수 (음, 양, 0) , 정수가 아닌 유리수 (유한 소수, 순한 소수)
무리수 / 순한하지 않는 소수
이산 수학 (Discrete mathematics)
이산적인 수학 구조에 대해 연구하는 학문으로, 연속되지 않은 공간을 다룬다.
커버사진
참조 : https://www.coursera.org/course/introstats