반응형
Python을 사용한 데이터 전처리 코드는 다양한 방법으로 구현할 수 있습니다. 이에 따라 다음은 일반적으로 사용되는 몇 가지 데이터 전처리 기술을 구현하는 예제 코드입니다.
결측값 처리
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")
결측값 확인
data.isna().sum()
결측값을 다른 값으로 대체
data['column'].fillna(value='missing', inplace=True)
이상치 처리
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")
이상치 확인
import seaborn as sns
sns.boxplot(x=data['column'])
이상치 값을 다른 값으로 대체
data['column'] = data['column'].apply(lambda x: 100 if x > 100 else x)
범주형 데이터 인코딩
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")
더미 변수 생성
dummy_data = pd.get_dummies(data['column'])
더미 변수 추가
data = pd.concat([data, dummy_data], axis=1)
데이터 스케일링
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")
표준화
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data['column'] = scaler.fit_transform(data[['column']])
정규화
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
data['column'] = scaler.fit_transform(data[['column']])
데이터 분할
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")
데이터 분할
from sklearn.model_selection import train_test_split
training_data, test_data = train_test_split(data, test_size=0.3, random_state=123)
반응형
'Python' 카테고리의 다른 글
[Python] kaggle #4 : Store Sales Time Series Forecasting (3) | 2023.03.23 |
---|---|
[Python] kaggle #2 House Prices - Advanced Regression Techniques with GPT (0) | 2023.03.20 |
[Python] Kaggle#1 : 타이타닉 with GPT (0) | 2023.03.18 |
[Python]말하는 AI 만들기 with GPT (2) | 2023.03.16 |