-
1. 기술 통계의 기본 개념
기술 통계 : 데이터를 요약하고 시각적으로 표현하는 방법
- 평균 : 데이터의 중심값을 나타냄. 모든 값을 더한 후 데이터 개수로 나눈 값
- 중앙값 : 데이터를 크기 순서대로 정렬했을 때 가장 중앙에 위치한 값
- 최빈값 : 데이터에서 가장 자주 등장하는 값
- 분산 : 데이터가 평균에서 얼마나 퍼져 있는지를 측정하는 값
- 표준편차 : 분산의 제곱근으로, 데이터의 흩어짐 정도를 원래 단위로 표현
2. 확률 및 확률 분포
확률 : 어떤 사건이 발생할 가능성을 나타내는 척도
- 조건부 확률 : 한 사건이 주어졌을 때 다른 사건이 일어날 확률
- 정규분포 : 데이터가 평균을 중심으로 대칭적으로 분포하는 가장 일반적인 분포
- 이항분포 : 성공과 실패처럼 두 가지 결과를 가진 실험에서 발생하는 확률 분포
- 포아송 분포 : 일정 시간 내에 사건이 몇 번 발생하는지를 나타내는 분포
3. 추론 통계학
추론 통계학 : 샘플 데이터를 통해 모집단의 특성을 추정
- 가설 검정 : 데이터로부터 귀무가설(Null Hypothesis)을 기각할 수 있는지 확인
- t-검정 : 두 집단의 평균을 비교하는 검정
- 단일 표본 t-검정 : 한 집단의 평균이 특정 값과 다른지 확인
- 독립 표본 t-검정 : 두 독립된 집단의 평균 차이를 확인
- 대응 표본 t-검정 : 동일한 집단의 두 조건 간 평균 차이를 확인
- 카이제곱 검정 : 범주형 데이터 간 독립성 또는 분포 적합성을 확인
- t-검정 : 두 집단의 평균을 비교하는 검정
- 신뢰 구간 : 추정값이 참값을 포함할 가능성이 있는 범위
4. 상관관계와 회귀 분석
상관관계 : 두 변수 간의 연관성을 측정
- 상관계수 : 두 변수의 선형 관계를 수치화
- 피어슨 상관계수 : 연속형 변수 간 선형 관계를 측정
- 스피어만 상관계수 : 순위 기반 관계를 측정
- 회귀 분석 : 변수 간 관계를 모델링하여 예측하는 방법
- 단순 회귀 : 하나의 독립 변수와 종속 변수 간의 관계
- 다중 회귀 : 여러 독립 변수와 종속 변수 간의 관계
5. 데이터 분포와 정규성 검정
데이터 분포 : 데이터가 공간적으로 어떻게 분포되어 있는지 나타냄
- 왜도 : 데이터 분포의 비대칭성을 측정 => 비대칭이 커질수록 왜도 절댓값 증가
- 일반적으로 왜도 -1 ~ +1 범위는 치우침이 없는 데이터라고 함
- 첨도 : 데이터 분포의 뾰족함 정도를 나타냄
- MesoKurtic : 정규 분포 모양
- Leptokurtic : 중앙 부분은 Mesokurtic 보다 높고 뾰족하기 때문에 이상치가 많을 수 있음
- Platkurtic : Leptokurtic과 반대, 이상치가 없음, 데이터 다시 확인 필요
- 정규성 검정 : 데이터가 정규분포를 따르는지 확인
- Q-Q Plot : 데이터 분포와 정규분포의 비교를 시각화
- 샤피로-윌크 검정 : 정규성 검정을 위한 통계적 방법
6. 데이터 분석을 위한 행렬 연산
행렬 연산 : 다차원 데이터를 표현하고 변환하는 기법
- 행렬 : 숫자를 배열한 직사각형 형태의 데이터 구조
- 벡터 : 행렬의 특수한 경우로, 1차원 데이터 구조
- 고유값과 고유벡터 : 선형 변환에서 행렬의 특성을 나타내는 값
7. 고급 통계 기법
고급 통계 기법 : 데이터 차원 축소와 시계열 데이터 분석에 활용
- 주성분 분석(PCA) : 데이터의 차원을 축소하여 주요 패턴을 추출
- 시계열 분석 : 시간에 따라 변하는 데이터를 분석
8. 데이터 시각화를 위한 기초 통계
데이터 시각화 : 데이터를 그래프로 표현하여 패턴을 탐색
- 히스토그램 : 데이터 분포를 막대그래프로 표현
- 상자 그림 : 데이터의 중앙값, 사분위수, 이상치를 시각적으로 나타냄
- 산점도 : 두 변수 간 관계를 점으로 표현