반응형

studioR 2

[R공부] 수치형 변수와 범주형 변수의 차이

두 변수의 가장 큰 차이는 수치형 변수는 사칙연산이 가능하기 때문에 분산 및 표준편차를 확인 가능하다는 점이다. 평균을 구하는 공식? 은 아래와 같다. 여기에서 i는 관측치의 일련번호를 의미하며 x는 관심대상인 수치형 변수이다. 그러므로 xi는 특정 수치형변수의 i번째 관측치라는 뜻을 의미한다. 써메이션 기호는 모든 것을 더하라는 뜻으로 i가 1일때부터 n일때 까지의 모든 합을 더하라는 것으로 평균값(엑스바)는 전체 관측치의 합계를 계산하고 관측치의 개수 N으로 나눈다. 분산의 경우 아래 공식이다. 각각의 관측치에서 평균을 빼게되면 평균보다 큰 관측치의 값은 양이되고 작은 관측치의 값은 음이된다. 거기에 제곱을하면 양수든 음수든 똑같아진다? 평균에서 떨어진 정도를 구하고 제곱을 한뒤 관측치에서 1을 뺀것..

TECH 2021.04.22

[R공부] 20210419_수치형변수 범주형변수

변수의 형식의 이해, 범주형 변수의 요과 시각화 변수와 관측치로 구성된다. 변수는 X축,Y축이고, 관측치는 X/Y축에 포함되는 벡터값이다. 데이터분석은 관측치 중심, 변수중심으로 나누어진다. 변수의 형식에 따라서 어떤 분석방법을 적용하는지 두변수의 관계에 따라서 어떤 관계를 가지고 있는지에 따라서 분석방법을 결젙하는것이 좋다. ex)성별/ 연령대의 경우 한정적인 값을 가지며, 매출금액은 다양하게 될 수 있다. 변수는 점주형 수치형 두개로 나누어진다. 범주형 변수는 관측치들이 몇개의 정해진 값만 가질 수 있음 수치형은 다양한 숫자값을 가질 수 있음 주소등은 무잔형, 날짜는 날짜형 변수로 저장한다. - 전처리를 통해 시군구, 요일, 시간차 등 파생변수를 만들어 활용하는 경우가 대부분이다. 데이터분석의 목적은..

ITEMS 2021.04.19
반응형