본문 바로가기
기타/Etc

[ADSP] 3과목 요약 정리

by Nataliaa 2023. 7. 24.

통계 분석 개요

1. 통계분석

- 통계분석 방법을 이용해 의사결정하는 과정

- 기술통계: 여러 특성을 수향화하는 통계 분석 방법론(편균, 표준편차, 그래프)

- 통계적 추론(추측통계)모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 통계(모수추정가설점정예측

 

2. 모집단

- 잘 정의된 연구목적과 이와 연계된 명확한 연구 대상 (데이터 전체 집합)

 

3. 표본조사

 (1) 표본 오차(sampling error)

   - 모집단을 대표할 수 있는 표본 단위들이 조사 대상으로 추출되지 못함으로서 발생하는 오차

 (2) 비표본 오차(non-sampling error)

   - 표본오차를 제외한 모든 오차로서 조사과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차

   - 조사대상이 증가하면 오차가 커진다.

   - 표본값으로 모집단의 모수를 추정할 때 표본오차의 비표본오차가 발생할 수 있다.

 (3) 표본 편의(sampling bias)

  - 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차

  - 표본 편의는 확률화(randomization)에 의해 최소화하거나 없앨 수 있다. 

  - 확률화(randomization): 모집단으로부터 편의되지 않은 표본을 추출하는 절차

  - 확률 표본(random sample): 확률화 절차에 의해 추출된 표본 

 (4) 표본조사의 유의점

  - 응답오차, 유도질문 등 표본조사에서 유의해야할 점이다.

 

4. 표본추출의 방법
 - 표본조사를 할 때는 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출 방법을 명확하게 밝히거나 확인해야 한다.
 - 가장 대표적인 방법으로는 단순랜덤추출법, 계통추출법, 집락추출법, 층화추출법 등이 있다. 보통 업무에서는 이 방법들을 혼합사용.
 (1) 단순 랜덤 추출법

  - 각 원소에 임의 번호 부여 후 -> n개의 번호를 임의 선택 
 (2) 계통 추출법

  - 모집단의 모든 원소에 일련번호 부여 -> 순서대로 나열한 후 k개 씩 n개의 구간으로 나눈 후 , 각 구간에서 하나를 임의로 선택 

  - 번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출 방법

 (3) 집락 추출법

 - 일부 집락을 랜덤으로 선택 -> 각 집락에서 표본을 임의 선택 

 (4) 층화 추출법 

 - 모집단을 성격에 따라 몇 개의 집단 또는 층으로 나누고, 각 집단내에서 원하는 크기의 표본을 무작위로 추출하는 확률적 표본 추출 방법 

 - 서로 유사한 것끼리 몇 개의 층으로 나눈 후 표본을 랜덤하게 추출 

**표본조사 외에 실험으로 자료를 수집할 수도 있다. 특정 목적하에 실험 대상에서 처리를 가한 후 결과를 관측해 자료를 수집
**표본조사는 대상 집단의 일부 추출-> 현상 관측 또는 조사

 

5. 자료의 종류 

척도 순서 균등한 간격 절대적 존재
명목척도 x x x
서열척도 o x x
등간척도 o o x
비율척도 o o o

 (1) 질적 자료 (qualitative data)
  - 명목 척도 : 어느 집단에 속할 지 - 성별, 출생지 등
  - 순서 척도 : 서열관계 , 선택사항이 일정한 순서로 되어 있음 - 선호도
 (2) 양적 자료(quantitative data)
  - 구간 척도 : 속성의 양을 측정, 절대적인 원점 x , 비율은 별 의미 x - 온도, 지수 등
  - 비율 척도 : 절대적 기준인 0값 존재, 사칙연산 가능 , 숫자로 관측되는 일반적인 자료의 특성 - 무게, 나이, 연간소득, 제품 가격 등

**측정 : 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료 얻는 것
**측정방법 : 명목척도, 순서척도, 구간척도, 비율척도

 

6. 통계 분석 
 - 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계 분석 방법을 이용해 의사결정을 하는 과정 = 통계적 추론 : 수집된 자료를 이용해 대상 집단에 대해 의사결정 하는 것
 - '대상 집단의 특성값이 무엇일까?' 추측 : 추정
 -  가설의 채택여부를 결정 : 가설 검정
 -  미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 수행 : 예측
 - 평균, 표준편차, 중위수, 최빈값, %와 같이 숫자로 표현하는 방식 / 막대 그래프 등 그래프로 나타내는 방식

** 기술 통계 : 수집된 자료를 정리, 요약하기 위해 사용되는 기초적인 통계 - 자세한 통계적 분석을 위한 사전단계 역할

 

7. 통계 분석 기법 종류 

(1) 교차 분석 (Crosstabs Analysis) 

- 범수의 관찰도수에 비교될 수 있는 기대도수를 계산한다.

- 교차분석은 두 문항 모두 범주형 변수일 때 사용하며, 두 변수간 관계를 보기 위해 실시한다.

- 교차분석은 교차표를 작성하여 교차빈도를 집계할 뿐 아니라 두 변수들 간의 독립성 검정을 할 수 있다.

- 기대빈도가 5 미만인 셀의 비율이 20%를 넘으면 카이제곱분포에 근사하지 않으며 이런 경우 표본의 크기를 늘리거나 변수의 수준을 합쳐 셀의 수를 줄이는 방법 등을 사용한다.

(2) 빈도 분석 (Frequency Analysis)

(3) 판별 분석 (Discriminant Analysis)

(4) 요인 분석 (Factor Analysis)

(5) 평균비교 (T-Test)

(6) 군집 분석 (Cluster Analysis)

(7) 회귀 분석 (Regression Analysis)

(8) 분산 분석 (Analysis Variance)

(9) 상관 분석 (Correlation Analysis)


확률 및 확률 분포

1. 확률의 정의
 - 특정 사건이 일어날 가능성의 척도

 (1) 모든 사건 E의 확률값은 0과 1사이에 있다. 0 <= P(E) <= 1
 (2) 전체 집합 Ω의 확률은 1이다. 즉, P(Ω) = 1
 (3) 서로 배반인 사건들 E1, E2...의 합집합의 확률은 각 사건들의 확률의 합이다. (배반사건 = 교집합이 공집합인 사건)
**표본공간 : 통계적 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합
** 사건 : 표본공간의 부분집합
**근원 사건 : 오직 한 개의 원소로만 이루어진 사건을 근원사건
**표본공간이 유한 개의 원소로 구성이 되어 있고 근원사건들이 일어날 가능성이 모두 같다면, 사건 E의 확률은 " P(E) = n(E)/ n(Ω) " 즉, 사건 수 /  표본공간의 수 이다.

 

2. 조건부 확률과 독립사건

 - 조건부 확률 P(B|A) = P(A n B) / P(A) - P(A)>0 일 때만 정의된다.
 - P(A n B)=P(A)P(B)이면 , 두 사건이 독립이라는 의미.

 - P(B|A)=P(B): 사건 B의 확률은 사건 A가 일어났는 지 여부와 무관하다.

 

3. 확률 변수와 확률 분포
 - 특정사건이 일어날 확률은 그 변수가 특정값을 가질 확률로 표현할 수 있다.
 - 확률 변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수 , 정의역(x값)이 표본 공간, 치역이 실수값

(Image by Julie Bang © Investopedia 2020)

 

4. 이산형 확률 변수

 - 사건의 확률이 "점" , 확률이 0보다 큰 값을 갖는 점들로 표현 가능

 - 각 이산점에 있어서 확률의 크기를 표현하는 함수 → 확률 질량 함수 

  (1) 베르누이 확률분포 

   - 결과가 2개만 나오는 경우 (ex. 동전 던지기, 합격/불합격)

   - 각 사건이 성공할 확률이 일정하고 전/후 사건에 독립적인 특수한 상황의 확률 분포

  (2) 이항분포

  (3) 기하분포: 베르누이 시행 n번 반복 시, k번 성공할 확률

(초기하분포: 크기가 N인 모집단이 크기 M짜리 부모집단(A)과 N-M짜리 부모집단(B)으로 나눠져있을 때
n개의 표본을 비복원추출할 때 부모집단 A에서 추출될 표본의 분포)

  (4) 포아송분포: 주어진 시간, 공간 내에서 발생하는 사건의 횟수에 대한 확률 분포 

  (5) 다항분포: 이항분포 확장. 3가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률분포

 

5. 연속형 확률 변수

  - 어떤 0보다 큰 값을 갖는 함수의 면적으로 표현
  - 한 점에서의 확률은 0, 구간에서의 확률값 → 확률률밀도함수 

  (1) 균일분포(일양분포)

  (2) 정규분포

  (3) 지수분포

  (4) t-분포: 두 집단의 평균이 동일한 지 확인하기 위해 검정통계량으로 활용

  (5) 카이제곱분포: 모평균, 모분산이 알려지지 않는 모집단의 모분산 가설 검정과 동질성 검정 사용

  (6) F-분포: 두 집단 간 분산의 동일성 검정에 사용

 

이산형 확률 분포  연속형 확률 분포
베르누이 확률분포
이항분포 
기하분포

포아송분포
다항분포
초기하분포



균일분포 
정규분포 
지수분포
t-분포 
카이제곱분포 
F-분포

분산분포

6. 확률변수의 기댓값과 분산
 - 이상형 확률변수의 기댓값은 각 점에서의 확률값의 합

 - 연속형 확률변수의 기댓값은 해당 구간에서의 면적(적분)


추정과 가설검정

1. 추정과 가설검정 

통계적 추론
(1) 추정 (2) 가설검정
점추정 구간추정

 - 모수: 통계적 방법론을 통해 알고자하는 대상은 모집단의 확률분포 . 모집단의 특징을 표현하는 값 (예: 평균, 분산, 표준편차, 백분위수 등)

 - 통계적 추론: 모집단에서 추출된 표본을 기반으로 모수들에 대한 통계적 추론을 함. → 추정과 가설검정으로 나뉨

 - 모집단의 평균(모평균)을 추정하기 위한 추정량으로 표본평균이 대표적 (확률표본의 평균값)
 - 모집단의 분산(모분산)을 추정하기 위한 추정량으로 표본분산이 대표적 

 

(1) 점추정 

 - 가장 참값이라고 여겨지는 하나의 모수의 값을 택하는 것. 모수가 특정한 값일 것 이라고 추정하는 것. 


(2) 구간추정
 - 모수가 특정한 구간에 있을 것이라는 개념으로 신뢰구간을 추정하는 방법 

 - 모수의 참값이 포함되어 있다고 추정되는 구간을 결정하는 것이지만, 실제 모딥단의 모수가 신뢰구간에 꼭 포함되어 있는 것은 아니다.

 - 신뢰수준: 90%, 95%, 99%의 확률을 이용하는 경우가 많다.

 - 신뢰수준 95%: '주어진 한 개의 신뢰구간에 미지의 모수가 포함될 확률 95%;라는 의미 

 - 신뢰 구간: 일정한 크기의 신뢰 수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것

 - 신뢰수준이 높아지면 신뢰수준의 길이는 길어진다. 

 - 표본의 수가 많아지면 신뢰구간의 길이는 짧아진다. 

 - 모집단의 획률분포를 정규분포라 가정할 때, 95% 신뢰수준 하에서 모평균 μ 의 신뢰구간

 

(A visual representation of the Empirical (68-95-99.7) Rule based on the normal distribution, wikipedia)

 

2. 자유도(degree of freedom)

 - 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료 수

 - 크기가 n인 표본의 관측값의 자유도는 n-1이다 


3. 가설검정 

 - 모집단에 대한 귀무가설(H0)과 대립가설(H1)을 설정한 뒤, 표본관찰 또는 실험을 통해 하나를 선택하는 과정

 - 귀무가설이 옳다는 전제하에서 관측된 검정통계량의 값보다 더 대립가설을 지지하는 값이 나타날 확률을 구하여 가설의 채택여부 결정한다.

 - 독립변수의 기울기(회귀계수)가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설로 놓는다. 

 - 즉 유의수준을 평가하여 귀무가설을 채택할지 거부할지를 판단한다.

 - 귀무가설(H0) : 대립가설과 반대의 증거를 찾기 위해 정한 가설 (관습적이고 보수적인 주장)

 - 대립가설(H1) : 증명하고 싶은 가설 (적극적으로 우리가 입증하려는 주장) 

 - 유의수준(알파a): 오류를 허용할 범위

 - 유의확률(p-value): 대립가설이 틀릴 확률 

 

4. p-value 

 - 귀무가설이 옳다는 가정하에 얻은 통계량이 귀무가설을 얼마나 지지하는 지를 나타낸 확률이다. 

 - p-value는 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 실제 확률을 나타낸다. 

 - p-value가 미리 정해놓은 유의수준 값보다 작을 경우 귀무가설은 기각되고 대립가설은 채택된다. 

 - p-값은 0~1 사이의 값을 가지고 있고 P값은 전체 표본에서 하나의 표본이 나올 수 있는 확률이다. 

 - p-값이 작을수록 귀무가설을 기각할 가능성이 높아진다.

 - p-값이 유의수준(α)보다 작으면 귀무가설을 기각한다.

 

5. 가설검정의 오류 

- 제1종 오류와 제2종 오류는 상충관계가 있음

- 제1종 오류의 확률을 0.1, 0.05, 0.01 등으로 고정시킨 뒤, 제2종 오류가 최소가 되도록 기각역을 설정한다.

- 기각역: 귀무가설을 기각하는 통계량의 영역 (대립가설이 맞을 때ㅐ 그것을 받아들이는 확률) 

- 1종 오류: 귀무가설이 사실임데도 사실이 아니라고 판정 

- 2종 오류: 귀무가설이 사실이 아님에도 사실이라고 판정 

정확한 사실\가설검정 결과 귀무가설(H0)이 사실이라고 판정  귀무가설(H0)이 사실이 아니라고 판정 
귀무가설(H0)이 사실임 옳은 결정 제 1종 오류(α) 
귀무가설(H0)이 사실이 아님 제2종 오류(β) 옳은 결정

 

6. 가설검정의 예시

- A나라의 평균수명은 70세라고 통상 알려져 있다. (귀무가설) 실제로 평균 수명이 70세인지 아닌지 검정하고자 한다. 샘플링한 데이터를 t-test를 진행한 결과 p-value가 0.04로 나왔으며, 유의수준 5%에서 검정하라.

- 귀무가설은( A나라의 평균수명의 통념 70세 이다. ) 기각하고 대립가설을 ( A나라의 실제로 평균 수명이 70세가 아니다. ) 채택한다.

- 채택근거는 t-test (두 집단의 평균 차이 확인시 사용)결과 p-value = 0.04로 유의확율인 0.05보다 "작아" 귀무가설은 기각하고, 대립가설을 채택할 수 있다.

 

7. t 검정(t-test)

- 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법

- “두 모집단의 평균간의 차이는 없다”라는 귀무가설과 “두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 선택할 수 있도록 하는 통계적 검정방법

 

8. 검정 통계량

 - 우리의 자료로부터 계산하게 되는 값

 - 검정 통계량은 모수를 추정하고자 하는 것 

 - 귀무가설을 기각을 할지 말지는 모수로부터 검정통계랑이 얼마나 떨어져 있는데 따라서 판단한다.

 

9.  기각역 설정

  - θ : 모수

  - x : 영가설(의 수치)

  - t : 검정통계량(x의 상대적 위치)

  - C : 임계값 (t를 검정하기 위한 기준)

 

   (1) 양측 검정 (유의수준 : α/2) 

       - H0 : θ = x

       - H1 : θ != x

       - 기각역 : P(t < Cl) ~ P(t > Cu)  *색칠구간

       - 채택역 : Cl < t < Cu

       - 유의확률 : P(ㅣtㅣ< α/2 )   * P(t < 0.025) 일 때, H0 기각

                                                      * 검정의 편의를 위해 t에 절대값을 적용


    (2) 단측 검정(왼쪽) (유의수준 : α)

       - H0 : θ >= x

       - H1 : θ < x

       - 기각역 : P(t < Cl)   *색칠구간

       - 채택역 : P(t > Cl)

       - 유의확률 : P( t < α )   * P(t < 0.05) 일 때, H0 기각, H1 채택


   (3) 단측 검정(오른쪽) (유의수준 : α)

       - H0 : θ <= x

       - H1 : θ > x

       - 기각역 : P(Cu < t)   *색칠구간

       - 채택역 : P(Cu > t)

       - 유의확률 : P( t < α )   * P(t < 0.05) 일 때, H0 기각, H1 채택

 


모수 검정

1. 모수적 검정

  - 모집단의 분포에 대한 가정을 하고, 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법

  - 가설의 설정 : 가정된 분포의 모수(모평균, 모분산 등)에 대한 가설 설정

  - 검정 실시 : 관측된 자료를 이용해 표본평균, 표본분산 등을 구하여 검정 실시

 

2. 비모수적 검정

  - 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정 방법이다.

  - 비모수적 방법은 모집단에 대한 아무런 정보가 없을 때 사용하는 방법 

  - 관측 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용 

  - 비모수적 방법은 평균과 분산이 없고 평균 값의 차이, 신뢰구간을 구할 수 없다. 

  - 모딥단의 특성을 몇 개의 모수로 결정하기 어려우며 수많은 모수가 필요할 수 있다. 

 - 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정한다.

  - 가설의 설정 : 가정된 분포가 없으므로, 단지 '분포의 형태'가 동일한지 여부에 대해 가설 설정

  - 검정 실시 : 관측값의 순위나 관측값 차이의 부호 등을 이용해 검정 실시 

                    (예) 부호검정, 순위합검정, 부호순위합검정, U검정, 런검정, 순위상관계수 등

모수 검정 비모수 검정
가정된 분포의 모수에 대해 가설 가정된 분포X
-> "분포의 형태가 동일 or 동일하지 x "같은 분포의 형태에 대해 설정
관측된 자료를 이용해 표본평균, 표본분산 등 이용 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위, 차이의 부호 등을 이용

- 부호 검정
- 크루스칼-왈리스 검정
- 맨-휘트니 검정

 

3. 부호 검정(Sign test) 

  - 비모수 검정 방법 

  - 표본들이 서로 관련되어 있는 경우 짝지어진 두 개의 관찰치들의 크고 작음을 표시하여 그 개수를 가지고 두 분포의 차이가 있는지에 대한 가설을 검증하는 방법

 

4. 모분산의 추론 

 - 표본의 분산은 카이제곱 분포를 따른다.

 - 모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우 모분산이 추론의 대상이 된다.

 - 모집단이 정규 분포를 따르지 않더라도 중심극한정리를 통해 정규모집단으로부터 모분산에 대한 검정을 유사하게 시행할 수 있다.

 - 이 표본에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 *F분포를 따른다.

*F분포 : 두 집단 간 분산의 동일성 검정에 사용 (t분포 : 두 집단의 평균이 동일한 지 확인하기 위해 검정통계량으로 활용)

 


기초 통계분석

1. 기술 통계

 - 자료를 요약하는 기초적 통계

 - 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약

 - 분석에 앞서 데이터의 통계적 수치를 계산해봄으로써, 데이터에 대한 대략적인 이해와 분석의 통찰력을 얻기에 유리하다.

 - R에서는 head(data), summary(data), mean(data$column), median(data$column), var(data$column), max(data$column), min(data$column) 등의 함수로 기초통계량을 구해 확인한다.

 

2. 분포의 형태에 관한 측도

(1) 왜도 

 - 분포의 비대칭 정도를 나타내는 측도

 - Right-skewed, Prositive-skewed distribution 

   : 오른쪽으로 긴 꼬리를 갖는 분포 

   : Mode < Median < Mean 

 - Symmetrical distribution

   : Mode = Median = Mean 

 - Left-skewed, Negative-skewed distribution

   : 왼쪽으로 긴 꼬리를 갖는 분포 

   : Mean < Median < Mode

(2) 첨도

 - 분포의 중심에서 뾰족한 정도를 나타내는 측도 

Right-skewed 분포

 

3. 표본을 도표화함으로써 모집단 분포의 개형을 파악하는 방법 

(1) 히스토그램 

 - 도수분포표를 이용하여 표본자료의 분포를 나타낸 그래프

 - 수평축 위에 계급구간을 표시하고 각 계급의 상대도수에 비례하는 넓이의 직사각형을 그린 것

 - 연속형 

(2) 막대그래프

 - 범주형

(3) 줄기-잎 그림 

 - 각 데이터의 점들을 구간단위로 요약하는 방법으로 계산량이 많지 않음

(4) 상자그림

(5) 산점도 

 - 두 특성의 값이 연속적인 수인 경우, 표본자료를 그래프로 나타내는 방법

 - 각 이차원 자료에 대하여 좌표가 (특성 1의 값, 특성 2의 값)인 점을 좌표평면 위에 찍은 것

(6) 파레토그림 

 - 명목형 자료에서 ‘중요한 소수’를 찾는데 유용한 방법

줄기와 잎 그림, 나무위키

 

4. 회귀 분석의 정의와 변수의 종류

 - 회귀분석이란 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법이다.

 - 반응변수(종속변수) : 영향을 받는 변수, 보통 y로 표기

 - 설명변수(독립변수) : 영향을 주는 변수, 보통 x, x1, x2 등으로 표기

 - 회귀계수 추정 최소제곱법최소자승법 

 

 

'기타 > Etc' 카테고리의 다른 글

[ADSP] 3과목 요약 정리  (1) 2024.02.05
[ADsP] 주관식 요약(2)  (0) 2023.07.16
[ADsP] 주관식 요약  (0) 2023.05.11
[ADSP] 1과목 요약 정리  (0) 2023.02.23
[ADSP] 2과목 요약 정리  (0) 2023.02.23

댓글