먼저 분석에 앞서 가설을 미리 세우고 유의미한 값인지 판단하는 p 값으로 분석 결과를 나타낼 수 있다. '가설'이란 아직 검증되지 않은 추측적 예비 이론을 말한다. 분석 방법은 변수 종류가 범주형 변수인지 연속형 변수인지에 따라 달라진다. 변수 역시 영향을 주는 독립변수와 영향을 받는 종속변수 두 가지가 있으므로 이 조합에 따라 분석 방법이 달라진다.
독립변수(영향을 주는 변수) | 종속변수(영향을 받는 변수) | 분석 방법 |
범주형 변수 | 범주형 변수 | 카이제곱검정(교차표 분석) |
연속형 변수 | t 검정 분산분석(집단이 세 개 이상인 경우) |
|
연속형 변수 | 범주형 변수 | 로지스틱 회기분석 다항 로지스틱 회기분석 |
연속형 변수 | 단순/다중회기분석 구조방정식 |
|
연속형 + 범주형 변수 | 범주형 변수 | 로지스틱 회기분석 의사결정나무 |
연속형 변수 | 공분산분석(ANCOVA) |
예를 들어 직업이 몸무게에 미치는 영향이 있는지 분석한다면 영향을 주는 변수는 직업(범주형 변수)이고 영향을 받는 변수는 몸무게(연속형 변수)이다. 범주형 변수 -> 연속형 변수이므로 t 검정과 분산분석을 수행한다. 만일 변수의 집단이 세 개 이상이라면 분산분석을 사용한다.
summary 함수
R은 통계 기반의 언어이므로 간단히 summary 함수 하나만으로도 벡터, 행렬, 요인, 데이터 프레임 등에 대해 최솟값, 최댓값, 중앙값, 평균 등 기본적이면서도 유용한 통계치를 모두 보여준다.
요인 타입의 변수를 요약하면 수준별 도수도 알 수 있다. 예를 들어, 성별 코드를 요인으로 취급하여 summary 함수를 실행해보면, 1번인 남자는 424,668명, 2번인 여자는 575304명, 성별을 모르는 사람은 27명인 것을 알 수 있다.
'Data Science > R' 카테고리의 다른 글
[R통계분석] t 검정 (t-test) (0) | 2021.12.09 |
---|---|
[R통계분석] 가설검정: 귀무가설, 대립가설, p값 (0) | 2021.12.08 |
[R 언어] sensitivity and specificity (0) | 2021.11.17 |
[R 시각화 심화] ggplot (0) | 2021.10.05 |
[R 시각화 심화] 방사형 차트 그리기 (0) | 2021.10.05 |