Encoding
- categorical feature를 numerical feature로 변환하는 작업
OneHotEncoder
- 해당 범주를 1, 나머지는 0으로 하는 feature가 새로 생성된다.
ohe = OneHotEncoder(sparse=False)
a = pd.DataFrame(ohe.fit_transform(df[['weather']]), columns=['ranniy', 'sunny', 'windy'])
df_a = pd.concat([df.drop('weather', axis=1), a], axis=1)
df_a
LabelEncoder
- categorie feature의 범주에 정수값을 부여한다. (ex - sunny 1, rainny 2, windy 3)
- 순서대로 정수값이 부여되기 때문에 범주간 순서가 없다면 사용을 지양한다. (sunny의 2배가 rainny인 것은 관계가 없다)
lbe = LabelEncoder()
b = pd.DataFrame(lbe.fit_transform(df['weather']))
b_df = pd.concat([df.drop('weather', axis=1), b], axis=1)
b_df
get_dummies
- dataframe을 넣으면 categorie feature만을 numerical feature로 변환한다.
c = pd.get_dummies(df)
c
'ML_DL > 딥러닝 공부하기' 카테고리의 다른 글
[파이토치로 시작하는 딥러닝] Part-1 Basic ML (0) | 2023.06.24 |
---|---|
[Loss Function] Cross Entropy (0) | 2023.04.30 |
Model Ensemble (0) | 2023.03.24 |
Macro-F1 score (0) | 2023.03.21 |
[Pytorch] 모델 작성과 모델 학습 과정 정리 (0) | 2023.02.15 |