[Python] 데이터 전처리 with GPT

Python을 사용한 데이터 전처리 코드는 다양한 방법으로 구현할 수 있습니다. 이에 따라 다음은 일반적으로 사용되는 몇 가지 데이터 전처리 기술을 구현하는 예제 코드입니다.

결측값 처리
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")

결측값 확인
data.isna().sum()

결측값을 다른 값으로 대체
data['column'].fillna(value='missing', inplace=True)

이상치 처리
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")

이상치 확인
import seaborn as sns
sns.boxplot(x=data['column'])

이상치 값을 다른 값으로 대체
data['column'] = data['column'].apply(lambda x: 100 if x > 100 else x)

범주형 데이터 인코딩
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")

더미 변수 생성
dummy_data = pd.get_dummies(data['column'])

더미 변수 추가
data = pd.concat([data, dummy_data], axis=1)

데이터 스케일링
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")

표준화
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data['column'] = scaler.fit_transform(data[['column']])

정규화
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
data['column'] = scaler.fit_transform(data[['column']])

데이터 분할
데이터 불러오기
import pandas as pd
data = pd.read_csv("data.csv")

데이터 분할
from sklearn.model_selection import train_test_split
training_data, test_data = train_test_split(data, test_size=0.3, random_state=123)

'Python' 카테고리의 다른 글

[Python] kaggle #4 : Store Sales Time Series Forecasting (3)	2023.03.23
[Python] kaggle #2 House Prices - Advanced Regression Techniques with GPT (0)	2023.03.20
[Python] Kaggle#1 : 타이타닉 with GPT (0)	2023.03.18
[Python]말하는 AI 만들기 with GPT (2)	2023.03.16

Data Science Experts with GPT

[Python] 데이터 전처리 with GPT

'Python' 카테고리의 다른 글

티스토리툴바

[Python] 데이터 전처리 with GPT

'Python' 카테고리의 다른 글

'Python' Related Articles

티스토리툴바