작성일자 : 2023-08-22
Ver 0.1.1
1. 데이터 탐색
1. 데이터 탐색
- 데이터 탐색(DEA: Data Exploratory Analysis)은 어떤 변수 간 가설을 검증하거나 분석결과를 보고하기 위한 목적보다는 연구자가 본격적인 분석에 들어가기에 앞어, 전반적인 자료의 응답 및 분포 경향을 파악하기 위한 분석 방법
- 데이터 탐색이 충실해야 성능 좋은 모델을 얻을 수 있음
목적 |1.단일 변수별 데이터 탐색|2.두 변수 간의 데이터 탐색| |:—————-|:——————| |-자료입력의 실수나 이상값을 탐지하고(이상치 제거)
-분석의 가정이 충족되는지 파악하며(정규성 등)
-자료 단위를 변환할 필요가 있는지 검토(자료변환 적용 여부)|-적절한 모델 선택을 위한 초기진단
-변수들 간 관계가 존재하는지를 파악함으로써 독립변수(예측변수)와 종속변수(결과변수) 간에 정(+)의 관계인지 부(-)의 관계인지, 얼마나 관련성이 큰지를 평가|
활용
- 자료 분포의 확인 : 히스토그램으로 상식적인 범위 밖의 자료 확인
- 이상치 검토 : 상자도표로 IRQ 기준 이상치 검토
- 정규성 검토 : 정규분포모양과 자료의 유사성 검토
- 선형성 검토 : 두 변수 간에 선형/비선형 관계 검토
- 단일 변수의 데이터 탐색
- 각 변수가 상식적인 범위밖에 존재해야 함
- 자료 입력의 오류 : 성별은 1(남) 2(여)뿐인데, 3번의 자료가 입력되면 안됨
- 이상치 : 콜레스트롤 수치는 0~240인데, 500, 1,00인 사람의 자료 존재
- 조치방법 : 이상치 제거(판단기준 : 분석자의 판단/ IRQ 등 통계적 기준)
- 수치형 변수의 분포는 중심이 자료가 많고 양끝으로 갈수록 자료가 줄어드는 모양(정규분포와 유사한 모양)이어야 좋음
- 자료가 중앙에 몰려 있어야 평균이 의미를 갖고, 두 변수 관계가 올바르게 파악됨. 한쪽에 몰린 자료는 실제 자료의 중심과 평균에 큰 차이가 있음
- 조치방법 : 자료 변환(로그변환, 제곱근 변환 등)
- 두 변수 간의 데이터 탐색
- 두 변수 간의 분석 모델 결정시 이상치 존재여부는 예측력에 큰 영향을 미침
- 정상적 범위 밖에 있는 몇몇 데이터로 인해 왜곡된 예측 모델이 나타날 수도 있음
- 모델 분석 전에 이러한 데이터 존재여부를 파악하고 조치를 취해야 함
- 검토방법 : 산점도, 상관관계분석, 교차분석 등 두 변수간 기초분석
- 조치방법 : 이상치 제거(판단기준 : 분석자의 판단/ 2~3 표준편차 밖의 데이터)
- 적합한 분석모형을 결정하기 위해서 특성변수와 레이블변수가 어떤 관계인지를 검토해야 함
- 두 변수 간의 산점도 및 중심을 지나는 선을 대략 그러보며 적합한 모델을 확인할 수 있음
- (1) 경향성에서 크게 벗어난 값이 있는가? (이상치)
- (1) 정상적인 범위에 있는가?
2. 기초 통계
- 기초통계량은 각 변수의 특성치를 파악하는 목적으로 활용됨
- 범주형 변수는 각 범주에 몇 개의 표본이 구성되어 있는지를 간단하게 파악하는 반면, 연속형 변수는 자료의 중심이 어디인지, 얼마나 퍼져 있는지, 정규분포 모양을 기준으로 얼마나 치우쳐져 있는지 등 다양한 통계량을 확인해야 함
- 범주형 자료의 기초 통계량
- 범주형 자료의 응답 및 구성 표본 수와 비율(%)을 파악
- 모든 변수에 대해서 잘 못 입력된 값, 혹은 범위 밖의 이상치가 있는지 파악
- 연속형 자료의 기초 통계량
- 연속형 변수는 기술통계량을 통해 자료의 중심, 퍼짐정도
- 분포도 등을 파악하며 자료의 특성을 의미함
- 중심화 경향 : 자료들의 중심은 어디인가? - 평균(Mean), 중위수(Median), 최빈값(Mode)
- 산포도 : 자료들은 중심을 기준으로 어떻게 흩어져 있는가? - 분산(Variance), 표준편차(Stddev.),범위(Range),사분위범위(IQR)
- 분포도 : 자료드르이 좌우대칭정도(왜도)와 뾰족함 정도(첨도)는 어떤가? - 왜도(Skewness), 첨도(Kurtosis)
- 산술평균
- $\overline{X} = \frac{x1+x2+ …+xn}{n}$
- 모든 수를 더해 자료의 개수로 나눈 값
- 일반적인 평균을 구할 때 적용
- 기하평균
- G =
- 모든 수를 100을 기준으로 곱하여 n 제곱근을 씌운 값
- 비율(성장율, 상승률)의 평균을 구할 때 적용
- 조화평균
- 역수의 합을 1/자료수로 곱한 후 역수를 취한 값
- 시간당 변하는 값, 즉 속도, 시세 등의 평균을 구할 때 사용
- 중위수
- 자료를 크기 순으로 나열한 후 중간에 위치한 값
- 극단치가 있을 때 검토
- 범위
- $R = MaxXi - MinXi$
- 자료 중 가장 큰 값과 가장 작은 값간의 차이로 계산
- 극단치가 있으면 너무 커지고 큰 활용도가 없음
- 사분위편차
- $Q = \frac{Q3 - Q1}{2}$
- 자료를 크기 순으로 나열했을 때 상위 25% 값과 하위 25%값 간의 차이로 계산
- 극단치에 영향을 덜 받으나 역시 활용도는 낮음
- 평균편차
- 각 자료와 평균간의 절대값 차이를 더하여 자료의 개수로 나눈 값
- 과거에는 종종사용되었으나 최근에는 자료의 단위를 반영하지 못하여 활용도가 낮아짐
- 분산
- 각 자료와 평균간의 차이를 제곱한 후 더하여 자료의 개수(n)-1 (자유도)로 나눈 값
- 자료의 퍼짐정도(분산도)를 나타내는 대표적인 값이나 제곱하여 너무 커짐
- 표준편차
- 분산에 루트를 씌워 원래의 단위로 변환한 값
- 가장 대표적인 분산도를 나타내는 값. 자료의 단위도 반영하여 활용도가 매우 높음
3. 상관 관계 분석
- 두 연속형 변수 간의 선형적 상관관계를 분석하는 기법
- 모델 적용 전에 특성변수와 레이블변수 간에 모델 적용이 적합한지 탐색적으로 파악
- 광고량과 브랜드인지도에는 상관이 있는가? 혹은 광고비와 매출액 간에 상관이 있는가?
- 상관계수(coefficient of correlation)가 높을수록 두 변수 간의 상관이 높음(-1 ~ 1)
- 해석
상관관계게수 | 해석 | ||||||||
---|---|---|---|---|---|---|---|---|---|
0.0 ~ 0.2 | 상관관계가 거의 없다 | 0.2 ~ 0.4 | 상관관계가 있기는 하나 다소 있다 | 0.4 ~ 0.7 | 상관관계가 다소 높다 | 0.7 ~ 0.9 | 상관관계가 높다 | 0.9 ~ 1.0 | 상관관계가 아주 높다 |
- 종류
[고려변수에 따른 구분]
상관관계 | 설명 | ||||
---|---|---|---|---|---|
단순상관분석 | 두 변수간의 상관관계 | 다중상관분석 | 하나의 변수와 두 변수 이상의 변수 간의 상관관계 | 편상관분석 | 다른 변수들의 상관관계를 통제하고(다른 변수들과 같이 변화하는 부분을 제외하고) 순수하게 두 변수 간의 상관관계 |
[자료특성에 따른 구분]
상관관계 | 설명 | ||||
---|---|---|---|---|---|
Pearson | 대표적인 상관관계분석. 두 변수가 연속형일 경우 예: 광고량과 매출과의 관계 |
Spearman | 두 변수가 서열자료일 경우 적용 예: 소득수준(상/중/하)와 생활만족도(상/중/하)의 관계 |
Kendall | 두 변수가 서열자료이며 순위의 일치도까지 파악 예: 소득수준-생활만족도 상-상,중-중,하-하의 일치도 |
구하는 방법
- 상관계수는 두 변수의 중심에서 각 자료가 얼마나 같이 움직이는가(공분산)를 계산한 통계량
- 다만 공분산은 자료의 단위에 따라 크게 변하므로, 공분산을 0과 1사이의 값으로 표준화한 것이 상관계수임
- $r = \frac{Sxy}{SxSy}$ (해석: x의 표준편차와 y의 표준편차의 곱한것을 나눈다 -> 왜? 표준편차로 나누면 표준화가 되니까)
4. 다변량 데이터 탐색
- 다차원 공간에서 표현될 수 있는 변인들의 관계를 탐색 및 분석하는 기법
유형 | 설명 | ||||
---|---|---|---|---|---|
일변량 데이터 | -단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료 -기술통계분석으로 탐색 및 분석 |
이변량 데이터 | -각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료 -상관관계, t/F검정, 교차분석 등을 적용 |
다변량 데이터 | -여러 변수가 동시에 고려된 다차원 공간에서 변수간 상관,예측, 분류를 목적으로 한 자료 -비지도적 방법인 주성분, 요인분석, 다차원척도법 등 여러 변수들 간의 유사성을 기준으로 차원축소 및 시각화 가능 -지도적 방법인 예측과 분류 알고리즘에서 특성변수가 여러개인 경우 역시 다변량 데이터로 볼 수 있음 |