ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 기초 통계
    기타 2025. 1. 10. 20:20

    1. 기술 통계의 기본 개념

    기술 통계 : 데이터를 요약하고 시각적으로 표현하는 방법

    • 평균 : 데이터의 중심값을 나타냄. 모든 값을 더한 후 데이터 개수로 나눈 값
    • 중앙값 : 데이터를 크기 순서대로 정렬했을 때 가장 중앙에 위치한 값
    • 최빈값 : 데이터에서 가장 자주 등장하는 값
    • 분산 : 데이터가 평균에서 얼마나 퍼져 있는지를 측정하는 값
    • 표준편차 : 분산의 제곱근으로, 데이터의 흩어짐 정도를 원래 단위로 표현

     

    2. 확률 및 확률 분포

    확률 : 어떤 사건이 발생할 가능성을 나타내는 척도

    • 조건부 확률 : 한 사건이 주어졌을 때 다른 사건이 일어날 확률
    • 정규분포 : 데이터가 평균을 중심으로 대칭적으로 분포하는 가장 일반적인 분포

    • 이항분포 : 성공과 실패처럼 두 가지 결과를 가진 실험에서 발생하는 확률 분포
    • 포아송 분포 : 일정 시간 내에 사건이 몇 번 발생하는지를 나타내는 분포

     

    3. 추론 통계학

    추론 통계학 : 샘플 데이터를 통해 모집단의 특성을 추정

    • 가설 검정 : 데이터로부터 귀무가설(Null Hypothesis)을 기각할 수 있는지 확인
      • t-검정 : 두 집단의 평균을 비교하는 검정
        • 단일 표본 t-검정 : 한 집단의 평균이 특정 값과 다른지 확인
        • 독립 표본 t-검정 : 두 독립된 집단의 평균 차이를 확인
        • 대응 표본 t-검정 : 동일한 집단의 두 조건 간 평균 차이를 확인
      • 카이제곱 검정 : 범주형 데이터 간 독립성 또는 분포 적합성을 확인
    • 신뢰 구간 : 추정값이 참값을 포함할 가능성이 있는 범위

     

    4. 상관관계와 회귀 분석

    상관관계 : 두 변수 간의 연관성을 측정

    • 상관계수 : 두 변수의 선형 관계를 수치화
      • 피어슨 상관계수 : 연속형 변수 간 선형 관계를 측정
      • 스피어만 상관계수 : 순위 기반 관계를 측정
    • 회귀 분석 : 변수 간 관계를 모델링하여 예측하는 방법
      • 단순 회귀 : 하나의 독립 변수와 종속 변수 간의 관계
      • 다중 회귀 : 여러 독립 변수와 종속 변수 간의 관계

     

    5. 데이터 분포와 정규성 검정

    데이터 분포 : 데이터가 공간적으로 어떻게 분포되어 있는지 나타냄

    • 왜도 : 데이터 분포의 비대칭성을 측정 => 비대칭이 커질수록 왜도 절댓값 증가
      • 일반적으로 왜도 -1 ~ +1 범위는 치우침이 없는 데이터라고 함
    • 첨도 : 데이터 분포의 뾰족함 정도를 나타냄
      • MesoKurtic : 정규 분포 모양
      • Leptokurtic : 중앙 부분은 Mesokurtic 보다 높고 뾰족하기 때문에 이상치가 많을 수 있음
      • Platkurtic : Leptokurtic과 반대, 이상치가 없음, 데이터 다시 확인 필요

    • 정규성 검정 : 데이터가 정규분포를 따르는지 확인
      • Q-Q Plot : 데이터 분포와 정규분포의 비교를 시각화
      • 샤피로-윌크 검정 : 정규성 검정을 위한 통계적 방법

     

    6. 데이터 분석을 위한 행렬 연산

    행렬 연산 : 다차원 데이터를 표현하고 변환하는 기법

    • 행렬 : 숫자를 배열한 직사각형 형태의 데이터 구조
    • 벡터 : 행렬의 특수한 경우로, 1차원 데이터 구조
    • 고유값과 고유벡터 : 선형 변환에서 행렬의 특성을 나타내는 값

     

    7. 고급 통계 기법

    고급 통계 기법 : 데이터 차원 축소와 시계열 데이터 분석에 활용

    • 주성분 분석(PCA) : 데이터의 차원을 축소하여 주요 패턴을 추출
    • 시계열 분석 : 시간에 따라 변하는 데이터를 분석

     

    8. 데이터 시각화를 위한 기초 통계

    데이터 시각화 : 데이터를 그래프로 표현하여 패턴을 탐색

    • 히스토그램 : 데이터 분포를 막대그래프로 표현
    • 상자 그림 : 데이터의 중앙값, 사분위수, 이상치를 시각적으로 나타냄
    • 산점도 : 두 변수 간 관계를 점으로 표현
Designed by Tistory.