성장通

통계학 기초: 회귀분석을 위한 통계 본문

ML&DL/ML DL 기본기

통계학 기초: 회귀분석을 위한 통계

백악기작은펭귄 2021. 12. 8. 15:18

회귀분석을 위한 통계

0. 통계학이란?

  • 통계학의 전반적인 이해를 위해서는 모집단표본에 대해 알아야 한다.
    1. 모집단 (Population)
      연구의 대상이 되는 모든 개체들을 모은 집합
      일반적으로 시간적, 공간적 제약으로 인해 모집단 전체를 대상으로 한 분석은 불가능하다.
    2. 표본 (Sample)
      모집단 일부의 관측값들
      모집단으로부터의 표본추출로 만들어진 표본으로부터 추정과 추론을 통하여 모집단의 특성을 파악하는 것이 통계학이다
  • 각각의 집단에서 우리가 관심 있게 봐야 할 것들은 다음과 같다.
    1. 모수 (Parameter)
      수치로 표현되는 모집단의 특성
      모집단의 요약 값이라고 할 수 있다.
      ex - 모집단의 평균, 분산 등
    2. 통계량 (Statistic)
      표본의 관측값들에 의해서 결정되는 양
    3. 추정량
      모수를 추정하기 위한 목적을 가진 통계량

1. 자료의 종류

통계학에서 주로 다루는 자료는 크게 두 가지로 나눌 수 있다.

  1. 수치형 (양적 자료): 기본적으로 숫자형 자료
    1) 연속형 (예: 몸무게, 키)
    2) 이산형 (예: 전화 통화 수)
  2. 범주형 (질적 자료): 클래스 형태로 구분할 수 있는 자료
    1) 순위형 (예: 학점)
    2) 명목형 (예: 성별)

설명변수 (독립변수, 입력변수) 와 반응변수 (종속변수, 출력변수) 가 범주형이냐 연속형이냐에 따라, 주로 사용되는 분석 방법이 달라지게 된다.


2. 자료의 요약 - 그림, 표

기본적으로 대량의 데이터를 다루는 머신러닝에서는, 자료의 수가 늘어남에 따라 데이터 각각의 특성보다는 전반적인 집단 형태 및 흐름이 더욱 중요해진다. 따라서 데이터를 시각적으로 표현하는 방법이 필요한데, 자료를 시각적으로 요약하는 방법에는 대표적으로 그림과 표가 있다.

 

1. 범주형 자료

 

2. 연속형 자료


3. 자료의 요약 - 수치 (기술 통계량)

자료는 수치적으로도 요약할 수 있다. 수학적인 계산을 통해 모집단의 요약 값을 구체적으로 알아내기 위해서는 수치화가 필요하다.

 

* 참고 및 이미지 출처: 패스트캠퍼스, 머신러닝과 데이터 분석 A-Z 올인원 패키지

 

'ML&DL > ML DL 기본기' 카테고리의 다른 글

지능과 인공 신경망  (0) 2022.05.25
회귀분석  (0) 2021.12.11
과적합(Overfitting)  (0) 2021.12.07
모델 적합성 평가 및 실험설계  (0) 2021.12.05
머신러닝 기법 구분: 지도학습, 비지도 학습, 강화학습  (0) 2021.12.02