철학과 학생의 개발자 도전기

패스트캠퍼스 환급챌린지 9일차 : 10개 프로젝트로 한 번에 끝내는 MLOps 파이프라인 구현 초격차 패키지 Online. 강의 후기 본문

패스트캠퍼스

패스트캠퍼스 환급챌린지 9일차 : 10개 프로젝트로 한 번에 끝내는 MLOps 파이프라인 구현 초격차 패키지 Online. 강의 후기

Younghun 2025. 3. 13. 23:03

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/4hTSJNB

 

커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스

성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.

fastcampus.co.kr

수강 인증

공부시작
공부끝
클립수강
실습

수강 후기

안녕하세요. 환급챌린지 9일차 포스팅입니다.
오늘은 Feature Engineering에 대해 실습해봤습니다.

이론적으로 배웠던 Feature Engineering을 실제 데이터에 적용해 보니, 데이터가 모델 성능에 미치는 영향을 보다 깊이 이해할 수 있었습니다. 오늘 실습에서는 Germany Credit Data를 활용하여, 데이터를 전처리하고 유용한 특성을 추출하는 과정을 진행했습니다.

Feature Engineering 과정

실습에서는 다음과 같은 주요 단계를 거쳤습니다.

  1. 데이터 불러오기 및 분석
    • 데이터의 구조를 이해하고, 중복 데이터 및 결측치를 확인했습니다.
  2. Feature Selection (특성 선택)
    • 카이제곱 검정과 크루스칼-왈리스 검정을 활용해 유의미한 변수를 선택했습니다.
  3. Feature Sampling (샘플링 기법 적용)
    • SMOTEENN을 사용해 데이터 불균형 문제를 해결했습니다.
  4. Data Scaling & Encoding (스케일링 및 인코딩)
    • 수치형 변수는 StandardScaler를 적용해 정규화하고, 범주형 변수는 One-Hot Encoding을 활용해 변환했습니다.

가장 인상 깊었던 부분: Feature Selection & Sampling

오늘 실습에서 가장 흥미로웠던 부분은 Feature Selection과 Sampling 기법을 활용한 데이터 개선 과정이었습니다.
Feature Selection을 통해 모델 학습에 도움이 되지 않는 변수를 걸러내는 과정이 인상적이었고, 특히 카이제곱 검정과 크루스칼-왈리스 검정을 활용해 범주형 데이터와 수치형 데이터 각각에 적절한 선택 기법을 적용했다는 점이 흥미로웠습니다.

또한, SMOTEENN을 사용해 데이터 불균형 문제를 해결하는 과정도 새로웠습니다. 기존 데이터만 사용하면 특정 클래스(예: 신용 불량자)에 대한 학습이 부족할 수 있는데, SMOTEENN을 활용해 소수 클래스를 증강하고 노이즈 데이터를 제거하면서 보다 균형 잡힌 데이터셋을 만들 수 있었습니다. 이를 통해 데이터의 분포를 조정하는 것이 모델 성능에 얼마나 중요한지를 체감할 수 있었습니다.

오늘 실습을 통해 얻은 인사이트

Feature Engineering을 직접 수행하면서 데이터를 어떻게 가공하느냐에 따라 모델의 성능이 크게 달라질 수 있다는 점을 다시 한번 깨달았습니다. 모델을 복잡하게 만드는 것보다, 올바른 데이터 전처리와 Feature Selection을 통해 학습에 최적화된 데이터셋을 구축하는 것이 중요하다는 걸 실감했습니다.

특히, 실험적으로 다양한 Feature Selection 기법을 적용해 보고, 그 결과를 비교해 보는 것이 중요하다는 생각이 들었습니다. 앞으로는 단순히 모델을 개선하는 데 집중하는 것이 아니라, 데이터를 더 깊이 이해하고 최적화하는 과정에도 신경 써야겠다는 다짐을 하게 된 하루였습니다.

다음 강의에서는 전처리된 데이터를 활용해 본격적으로 모델을 학습해볼 것 같은데, 실습을 통해 Feature Engineering이 모델 성능에 어떤 영향을 미치는지 더 깊이 탐구해 보고 싶습니다!