R

[R] 데이터 개념 이해하기(기초)

빵으니 2020. 7. 2. 17:06

통계로 개념 이해하기

표로 데이터 정리하기

통계에서 데이터를 다루는 것은 데이터를 '표'로 잘 정리하고 나타내는 것

데이터의 종류

수치형 데이터

  • 이산형 데이터 : 독립적인 값, 정수 > 이항 분포를 따르는 확률질량함수
  • 연속형 데이터 : 연속적인 값, 실수 > 확률밀도함수

범주형 데이터

  • 명목형 데이터 : 순서 없는 문자 > 남, 여 (부여한 숫자에 의미가 없음)
  • 순서형 데이터 : 순서 있는 문자 > 학점(A~F)

데이터 손질하기

데이터를 표로 잘 정리하는 것은 통계 전체 작업에서 50%이상을 완성 했다는 의미

 

명목형 변수 - 도수분포표

  • 도수 : 거듭하는 횟수
  • 측정한 값의 빈도수를 정리한 표

명목형 변수 - 상대도수분포표

  • 상대도수 : 변수값이 전체 변수값에서 어떤 비중을 차지하는 지 나타내는 것
  • 상대도수를 표료 만든 것

연속형 변수 - 도수분포표

  • 연속형 변수는 구간(계급)을 정해 구간 안의 수를 세어 표시
  • 구간의 범위는 데이터에 따라 정함

누적상대도수분포표

  • 상대도수를 더해가며 누적된 값을 나타낸 값

ex) example_studentlist2.csv 파일로 도수분표표, 상대도수분포표, 누적상대도수분포표를 만들어 보세요.

 

분할표

  • 두 가지 변수를 표로 정리한 것

데이터프레임

표를 R에서 다룰 때 "데이터프레임"이라는 특별한 객체에 담아서 사용

 

벡터 - R의 최소 데이터 단위

  • character
  • factor : 순서형, 명목형 변수
  • integer: 이산형 변수
  • numeric: 연속형 변수