철학과 학생의 개발자 도전기
패스트캠퍼스 환급챌린지 14일차 : 10개 프로젝트로 한 번에 끝내는 MLOps 파이프라인 구현 초격차 패키지 Online. 강의 후기 본문
패스트캠퍼스 환급챌린지 14일차 : 10개 프로젝트로 한 번에 끝내는 MLOps 파이프라인 구현 초격차 패키지 Online. 강의 후기
Younghun 2025. 3. 18. 23:42본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스
성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.
fastcampus.co.kr
수강 인증
수강 후기
안녕하세요. 환급챌린지 14일차 포스팅입니다.
오늘은 Airplane Delay Regression에 대해 실습했습니다.
항공기 지연 예측 모델을 만들며 느낀 점
이전까지는 주로 분류(Classification) 문제를 다뤘는데, 이번에는 회귀(Regression) 문제를 다루면서 모델의 접근 방식이 어떻게 달라지는지를 경험할 수 있었다.
분류 모델은 특정 클래스로 구분하는 것이 목표이지만, 회귀 모델은 연속적인 값을 예측하는 것이 목적이기 때문에 평가 방식과 데이터 처리 방식이 달라야 한다는 점이 흥미로웠다.
특히, 항공기 지연 문제는 변동성이 크고, 단순한 패턴만으로는 정확한 예측이 어렵다는 점에서 비즈니스적 난이도가 높은 문제라는 생각이 들었다.
날씨, 공항 혼잡도, 기체 정비 여부, 이전 비행기의 도착 시간 등 수많은 요인이 얽혀 있는 복잡한 문제이기 때문에, 단순한 데이터 입력만으로 완벽한 예측을 하는 것은 사실상 불가능에 가깝다.
하지만 그렇다고 해서 모델이 의미 없는 것은 아니다.
완벽한 예측을 목표로 하기보다는, 어떤 요인이 지연에 가장 큰 영향을 미치는지를 분석하고, 이를 기반으로 대응 전략을 세우는 것이 더 현실적인 접근이라는 점을 실감했다.
데이터를 보면서 떠오른 인사이트
EDA(탐색적 데이터 분석) 과정에서 몇 가지 흥미로운 패턴이 보였다.
✔ 비행기 지연 시간이 특정 시간대에 집중되는 경향이 있었다.
- 오전보다 오후 및 저녁 시간대에 지연이 심한 패턴이 나타났다.
- 이는 하루 종일 누적된 항공기 지연이 연쇄적으로 영향을 미치기 때문일 가능성이 크다.
- 즉, 초기 스케줄이 무너지면 이후 일정이 계속 영향을 받는다는 의미다.
✔ 출발 공항과 도착 공항에 따라 지연 패턴이 다르게 나타났다.
- 특정 공항(특히 허브 공항)에서는 지연율이 더 높았는데, 이는 공항 혼잡도 때문일 가능성이 높다.
- 따라서 공항별 혼잡도를 추가적인 Feature로 활용하면 모델 성능이 향상될 가능성이 있다.
✔ 날씨 변수의 중요성
- 날씨 정보가 포함된 데이터를 추가했을 때 모델의 성능이 개선되었다.
- 특히 강수량, 풍속 등의 변수는 비행기 지연에 큰 영향을 주는 것으로 나타났다.
모델 성능을 개선하면서 배운 점
항공기 지연 예측 모델은 단순히 데이터만 입력한다고 해서 높은 성능을 보이는 것이 아니라,
적절한 Feature Engineering과 모델 최적화 과정이 필수적이라는 점을 다시 한번 체감했다.
🔹 특성 선택(Feature Selection)과 Feature Engineering이 중요하다.
- 모든 데이터를 입력한다고 좋은 결과가 나오는 것이 아니라, 의미 있는 변수를 선별하는 과정이 필요하다.
- 단순히 기존 데이터를 활용하는 것뿐만 아니라, 새로운 변수를 생성하는 것이 모델 성능을 높이는 핵심적인 요소라는 점을 경험했다.
- 예를 들어, 단순한 출발 시간 대신 "출발 시간대(아침/오후/저녁)"를 범주형 변수로 변환하니 모델 성능이 향상되었다.
🔹 회귀 모델은 평가 지표를 신중하게 선택해야 한다.
- 이전까지는 분류 모델 위주로 학습했기 때문에 정확도(Accuracy), F1-score 등을 많이 사용했지만,
회귀 모델에서는 MSE(Mean Squared Error), RMSE(Root Mean Squared Error), MAE(Mean Absolute Error) 같은 지표가 더 적절하다는 점을 실습을 통해 체감했다. - 특히, 항공기 지연 데이터처럼 극단적인 값(Outlier)이 존재하는 경우, MAE가 RMSE보다 더 안정적인 평가 지표라는 점이 인상적이었다.
🔹 Random Forest vs. XGBoost
- 랜덤 포레스트(Random Forest)는 직관적으로 결과를 해석하기 쉬웠지만,
XGBoost는 더 강력한 성능을 보여주면서도 하이퍼파라미터 튜닝에 따라 성능 차이가 크다는 점이 흥미로웠다. - 결국 단순한 모델을 적용하는 것보다, 적절한 하이퍼파라미터 튜닝이 회귀 모델 성능을 좌우한다는 점을 다시 한 번 실감했다.
오늘 실습을 통해 얻은 교훈
✔ 모든 예측 모델이 100% 정확할 필요는 없다.
- 항공기 지연 예측처럼 변수가 많은 문제에서는 완벽한 예측보다는 패턴을 분석하고 주요 요인을 파악하는 것이 더 현실적인 목표다.
✔ 도메인 지식을 반영한 Feature Engineering이 성능 개선의 핵심이다.
- 기존 데이터에서 새로운 변수를 생성하는 과정이 모델 성능을 높이는 중요한 요소였다.
✔ 회귀 모델에서는 평가 지표를 신중하게 선택해야 한다.
- 정확한 예측보다는 평균적인 오차를 최소화하는 방향으로 모델을 최적화하는 것이 중요하다.
이번 실습을 통해 데이터 기반 분석이 단순한 예측을 넘어서, 비즈니스 전략 수립에도 강력한 도구가 될 수 있다는 점을 다시금 깨달았다.
다음 강의에서는 보다 정교한 모델 최적화 방법을 탐구해 보고 싶다.