패스트캠퍼스

패스트캠퍼스 환급챌린지 6일차 : 10개 프로젝트로 한 번에 끝내는 MLOps 파이프라인 구현 초격차 패키지 Online. 강의 후기

Younghun 2025. 3. 10. 20:27

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/4hTSJNB

 

온라인 강의 7주년 기념 1+1 이벤트 특별 연장! (3/10~3/12) | 패스트캠퍼스

단 3일! 미션, 리뷰, 인증 NO! 강의 사면 무.조.건 1+1 쿠폰 증정🎉

fastcampus.co.kr

 

수강 인증

공부시작
공부끝
클립수강
필기

 

수강 후기

안녕하세요. 환급챌린지 6일차 포스팅입니다.
오늘은 머신러닝 모델 개선을 위한 Feature Selection에 대해 배웠습니다.

그동안 머신러닝 모델을 학습시킬 때는 최대한 많은 데이터를 활용하는 것이 무조건 좋은 것이라고 생각했는데, 오늘 강의를 들으면서 그게 꼭 정답은 아니라는 걸 다시금 깨달았습니다. 모델이 필요로 하는 정보만을 잘 선별하는 것이 오히려 성능을 개선하는 데 더 중요한 역할을 한다는 점이 인상적이었습니다.

Feature Selection이 중요한 이유

모델을 학습시키다 보면, 데이터에 포함된 모든 특성이 유용한 것은 아니라는 걸 경험하게 됩니다. 오히려 불필요한 특성(irrelevant features)이나 중복된 정보가 모델의 성능을 저하시킬 수도 있습니다. 특히, 특성이 많아질수록 데이터의 차원이 증가하면서 차원의 저주(Curse of Dimensionality) 문제도 발생할 수 있는데, 이로 인해 학습 속도가 느려지고 과적합(overfitting) 위험도 커질 수 있습니다. 따라서 Feature Selection을 통해 정말 중요한 특성만 남기고, 불필요한 특성은 제거하는 과정이 필수적이라는 걸 배웠습니다.

배운 기법: ANOVA와 카이제곱 검정

오늘 강의에서는 Feature Selection을 수행하는 다양한 방법 중 ANOVA(일원 분산 분석)와 카이제곱 검정(Chi-Square Test)을 배웠습니다.

  • ANOVA(Analysis of Variance): 연속형 특성과 범주형 목표 변수 간의 관계를 분석하는 기법입니다. 특정 특성이 타겟 변수에 유의미한 영향을 미치는지 확인할 때 유용합니다.
  • 카이제곱 검정(Chi-Square Test): 두 범주형 변수 간의 독립성을 분석하는 기법입니다. 예를 들어, 고객의 직업과 구매 여부가 서로 연관이 있는지를 평가할 때 활용할 수 있습니다.

이 두 가지 기법을 배우면서, 머신러닝에서 단순히 데이터를 넣고 모델을 돌리는 것이 아니라, 데이터를 이해하고 해석하는 과정이 필수적이라는 걸 다시금 느꼈습니다.

오늘 배운 내용에서 얻은 인사이트

이번 강의를 들으면서 가장 크게 와닿았던 점은 Feature Selection이 단순히 모델 성능을 높이는 것을 넘어서, 문제를 해결하는 접근 방식 자체를 바꿀 수도 있다는 것이었습니다.
예를 들어, 데이터가 많으면 많을수록 좋은 성능을 기대할 수 있을 거라고 생각하지만, 불필요한 특성을 줄이는 것이 더 효율적인 전략일 수 있다는 것을 깨달았습니다. 머신러닝 모델의 복잡도를 줄이면 연산 비용도 절약할 수 있고, 무엇보다 모델이 더 해석 가능해진다는 점도 중요한 포인트였습니다.

또한, Feature Selection을 잘 활용하면 데이터 수집 및 전처리에 드는 시간과 비용도 줄일 수 있을 것 같습니다. 모든 데이터를 무작정 활용하기보다는, 어떤 특성이 핵심적인지를 먼저 고민하는 과정이 필요하다는 점을 오늘 실감했습니다.

이제 막 Feature Selection의 기본 개념을 배웠지만, 앞으로 실습에서 실제 데이터를 다뤄보면서 어떤 특성이 의미 있는지 분석하고 직접 선택하는 과정을 더 깊이 경험해 보고 싶습니다. 점점 모델 성능 개선에 필요한 핵심 개념들을 배워가면서, 머신러닝이 단순한 기술이 아니라 데이터를 이해하는 과정 자체가 중요하다는 점을 깨닫고 있습니다.