먼저 분석에 앞서 가설을 미리 세우고 유의미한 값인지 판단하는 p 값으로 분석 결과를 나타낼 수 있다. '가설'이란 아직 검증되지 않은 추측적 예비 이론을 말한다. 분석 방법은 변수 종류가 범주형 변수인지 연속형 변수인지에 따라 달라진다. 변수 역시 영향을 주는 독립변수와 영향을 받는 종속변수 두 가지가 있으므로 이 조합에 따라 분석 방법이 달라진다.

독립변수(영향을 주는 변수) 종속변수(영향을 받는 변수) 분석 방법
범주형 변수 범주형 변수 카이제곱검정(교차표 분석)
연속형 변수 t 검정
분산분석(집단이 세 개 이상인 경우)
연속형 변수 범주형 변수 로지스틱 회기분석
다항 로지스틱 회기분석
연속형 변수 단순/다중회기분석
구조방정식
연속형 + 범주형 변수 범주형 변수 로지스틱 회기분석
의사결정나무
연속형 변수 공분산분석(ANCOVA)

예를 들어 직업이 몸무게에 미치는 영향이 있는지 분석한다면 영향을 주는 변수는 직업(범주형 변수)이고 영향을 받는 변수는 몸무게(연속형 변수)이다. 범주형 변수 -> 연속형 변수이므로 t 검정과 분산분석을 수행한다. 만일 변수의 집단이 세 개 이상이라면 분산분석을 사용한다.

 

summary 함수

R은 통계 기반의 언어이므로 간단히 summary 함수 하나만으로도 벡터, 행렬, 요인, 데이터 프레임 등에 대해 최솟값, 최댓값, 중앙값, 평균 등 기본적이면서도 유용한 통계치를 모두 보여준다.

요인 타입의 변수를 요약하면 수준별 도수도 알 수 있다. 예를 들어, 성별 코드를 요인으로 취급하여 summary 함수를 실행해보면, 1번인 남자는 424,668명, 2번인 여자는 575304명, 성별을 모르는 사람은 27명인 것을 알 수 있다.

+ Recent posts