작성일자 : 2024-01-02 Ver 0.1.1 Pandas로 데이터 분석을 하다보면 같은 형태의 데이터가 날짜별로 적재가 되는 로그 데이터라던지 월별 테이블과 같은 파일들을 한번에 합쳐서 분석하고자 하는 필요가 있다. 한두개의 파일이라면 직접 코드를 작성해도 무방하지만 그 갯수가 많아진다면 직접 입력하기란 번거로워진다. 이런 경우 반복문으로 파일들을 손쉽게 합칠 수 있는데, 그 방법 중에서도 효율적으로 병합하는 방법에 대해서 정리해보겠다. 1. 방법(1) - 권장하지 않는 방법 첫번째 방법은 빈 DataFrame을 선언한 후 For Loop으로 각 파일을 읽어 붙이는 형태이다. # 권장하지 않는 사례 import pandas as pd, os dir = '/.../dir/path' df = pd.Da..
데이터분석
작성일자 : 2023-12-23 Ver 0.1.1 패스 네트워크 In [1]: # 필요 패키지 불러오기 import os import pandas as pd import numpy as np import matplotlib.pyplot as plt from collections import defaultdict import matplotlib.pyplot as plt # from src.plot_utils import draw_pitch pd.set_option('display.max_rows', 30) In [2]: # 현대 디렉토리 확인 current_dir = os.getcwd() current_dir Out[2]: '/Users/limjongjun/Desktop/JayJay/Growth/P..
작성일자 : 2023-12-13 Ver 0.1.1 1. 다중 회귀분석 # sklearn 라이브러리 활용 import pandas as pd import numpy as np from sklearn.linear_model import LinearRegression # 독립변수와 종속변수 설정 x = x[['col1','col2','col3']] print(x.head()) print(y.head()) # 모델링 model = LinearRegression() model.fit(x,y) # 회귀분석 관련 지표 출력 # 1. RSQ(결정계수) : model.score(x,y) model.score(x,y) print(round(model.score(x,y),2)) # 2. 회귀계수 출력 : model.coef..
작성일자: 2023-12-10 Ver 0.1.1 0. Intro 2021년 8월 9일부터 나는 데이터분석가로서 활동하고 있고, 어느덧 3년차이다. 일을 하면 할 수록 더 능력있는 데이터 분석가로 성장하고 싶은 마음이 커지고, 일이 재미 있음을 느끼고 있는 중인 나는 분명 행복한 데이터 분석가임은 틀림이 없다. 물론 그동안 모든 일이 쉽지 만은 않았다. 프로젝트 상황에 따라 밤을 샌적도 있었고, 로직 구현을 위해 야근을 정말 잦게 하던 때도 있었다. 예비군 훈련을 마치고도 바로 출근을 한다거나, 주말 출근을 하던 때도 있었다. 이런 순간들을 반드시 겪을 필요는 없지만, 그래도 이런 순간들이 있었기 때문에 성장을 많이 할 수 있었던 것은 부정할 수 없다. IT 산업의 기술 발전은 하루 하루 정말 빠르게 진행..