본문 바로가기

Python

[Python] 데이터 전처리 with GPT

반응형

Python을 사용한 데이터 전처리 코드는 다양한 방법으로 구현할 수 있습니다. 이에 따라 다음은 일반적으로 사용되는 몇 가지 데이터 전처리 기술을 구현하는 예제 코드입니다.

결측값 처리
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")

결측값 확인
data.isna().sum()

결측값을 다른 값으로 대체
data['column'].fillna(value='missing', inplace=True)

이상치 처리
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")

이상치 확인
import seaborn as sns
sns.boxplot(x=data['column'])

이상치 값을 다른 값으로 대체
data['column'] = data['column'].apply(lambda x: 100 if x > 100 else x)

범주형 데이터 인코딩
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")

더미 변수 생성
dummy_data = pd.get_dummies(data['column'])

더미 변수 추가
data = pd.concat([data, dummy_data], axis=1)

데이터 스케일링
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")

표준화
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data['column'] = scaler.fit_transform(data[['column']])

정규화
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
data['column'] = scaler.fit_transform(data[['column']])

데이터 분할
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")

데이터 분할
from sklearn.model_selection import train_test_split
training_data, test_data = train_test_split(data, test_size=0.3, random_state=123)
반응형