ITEMS

[R공부] 20210419_수치형변수 범주형변수

AKA.DM 2021. 4. 19. 08:51
반응형

변수의 형식의 이해, 범주형 변수의 요과 시각화

 

변수와 관측치로 구성된다.

변수는 X축,Y축이고, 관측치는 X/Y축에 포함되는 벡터값이다.

데이터분석은 관측치 중심, 변수중심으로 나누어진다.

변수의 형식에 따라서 어떤 분석방법을 적용하는지
두변수의 관계에 따라서 어떤 관계를 가지고 있는지에 따라서 분석방법을 결젙하는것이 좋다.
ex)성별/ 연령대의 경우 한정적인 값을 가지며, 매출금액은 다양하게 될 수 있다.

변수는 
점주형
수치형 두개로 나누어진다.

범주형 변수는 관측치들이 몇개의 정해진 값만 가질 수 있음
수치형은 다양한 숫자값을 가질 수 있음 

주소등은 무잔형, 날짜는 날짜형 변수로 저장한다.
- 전처리를 통해 시군구, 요일, 시간차 등 파생변수를 만들어 활용하는 경우가 대부분이다.

데이터분석의 목적은
한 변수 속에서 관측치 간이 차이를 살펴보고
변수 간의 관계를 확인
차이와 관계를 확인하기위해서 기술통계량을 계산하고 시각화활용

1. 범주형 변수의 시각화
정해진 값만 가질 수 있음
 - 범주형 분수의 수준(levels)
 어 떤 범주형 변수의 관측치들이 가질 수 있는 값의 묶음

처리(treatment), 그룹(group)이라고 표현한다.

 

범주형 변수의 그래프화 예



범주형 변수 빈도표작성
수준변로 관측치를 나누고 카운팅하여 표로 정리한다.

상대빈도의 계산
- 빈도표에서 각 수준 비율(prportion)을 계산하여 수준간 상대적 차이를 확인할 수 있다.

 

성별에 대한 상대빈도 계산의 예



ex) 성별의 막대그래프 => 성비로 변경가능하다.(상대빈도의 계산)

반응형