시내버스 혼잡도․노선, AI, 인공신경망, ML로 해결

챗GPT 기반 LSTM, 랜덤포레스트로 탑승객, 정류장별 혼잡도 예측 정확도 92%, ‘배차간격, 차내 혼잡도, 버스노선 등 합리화’

2024-06-25     전윤미 기자
서울 광화문 광장의 버스정류장으로 본문과는 직접 관련없음.

[애플경제 전윤미 기자] 혼잡한 대중교통 문제를 해소하는데도 챗GPT와 머신러닝, 인공신경망 기술이 유용한 것으로 알려졌다. 특히 시내버스 혼잡도를 줄이고, 합리적인 노선을 파악하는데도 이들 기술은 매우 적합하다는게 전문가들이 연구 결과다.

교통문제 전문기관인 한국교통연구원의 연구결과에 따르면 시내버스 이용자 통행량과 차내 탑승인원을 예측하고, 적절한 수준으로 조절하기 위한 버스 노선도 역시 LSTM 인공신경망 모델을 활용, 분석했다. 그 과정에서 챗GPT를 통해 인공신경망 모델을 적용하기 위한 파이썬 코드를 제공받았다.

시내버스 혼잡도와 불합리한 노선, 배차간격 문제를 해결하기 위한 챗GPT 기반의 머신러닝, 순환신경망 연구 기법의 개념도. (출처=한국교통연구원)

LSTM으로 RNN 데이터 ‘기울기’ 문제 해소

여기서 LSTM(장단기 메모리, Long short-term memory)은 순환 신경망(RNN) 기법의 하나다. 흔히 RNN에선 입력된 데이터가 시간이 오랠수록 잊혀지는 ‘기울기 소멸’(그래디언 현상)이 일어난다. 이에 LSTM을 적용하면 도중에 일종의 기억조절 기능을 하는 셀게이트(Cell gate)로 이를 해소한다. 셀 게이트는 기억을 일단 잊혀지게 하는 ‘Forget gate’, 데이터를 입력하는 ‘Input gate’, 그리고 출력 기능인 ‘Output gate’ 등의 ‘히든 레이어’를 추가, 기존 순환 신경망에서 발생하는 ‘기울기 소멸’ 문제를 해결한 것이다.

이에 관한 해당 연구원 설명을 인용하면, 각 히든 레이어에는 ‘Gate’라는 요소를 추가, 기존 RNN의 단점을 보완한 것이 LSTM의 특장점이다. 이는 시계열 특성을 고려한 장기 예측 성능을 인정할 만하다는 것이다. 그 중 ‘Forget Gate’는 과거의 정보를 어느 정도 수준까지 기억할지 결정하고, ‘Input Gate’는 현재의 정보를 기억하기 위한 역할을 하며, ‘Output Gate’는 과거의 정보와 현재의 데이터를 이용, 뉴런의 출력을 결정한다.

RNN의 기울기 문제를 해결하기 위한 LSTM의 3개 레이어에 관한 개념도. (출처=한국교통연구원)

서울 143번 시내버스 선정, 분석과 예측

연구원은 특히 LSTM 인공신경망 모델을 불러오기 위한 패키지(numpy, pandas, matlpotlib, tensorflow, sklearn)와 데이터를 각각 불러오는 코드에 주목하며 교통문제의 해법을 제시하고 있다. 현재 시민들이 겪는 가장 큰 불편은 출퇴근 시간의 혼잡함, 그리고 버스 배차 간격이 불규칙하거나, 길다는 점이다. 이에 챗GPT를 활용, 서울 시내버스 이용자 통행량과 차내 탑승인원을 사전에 예측하고, 정류장별로도 이용자들의 현황을 파악, 대응책을 마련토록 한다. 이를 위해 “챗GPT를 활용, 파이썬 코드를 받아 방법을 모색했다”는 얘기다.

일단 서울의 143번 시내버스와 해당 정류소 중 이용자들이 가장 많은 종로2가, 용산한신아파트 앞 등 6개의 정류장을 골라 6개월의 관찰 시간을 두고 대안을 모색했다. 그 과정에서 버스의 이용자 숫자, 차내 탑승인원 등 버스 통행에 영향을 주는 요인들로 ‘데이터 셋’을 구축했다.

여기서 일종의 머신 러닝인 ‘랜덤포레스트(RF)’ 기법이 적용된다. 데이터를 하나의 의사결정나무(DT: Decision Trss)가 아닌, 여러 개의 의사결정 나무로 확장시켜 분석하는 기법이다. 다시 말해 변수(경우의 수) 선택을 자유롭게 함으로써 특정 데이터 셋에만 적합하게 되는 현상을 방지하는 머신 러닝 기법의 하나다. 이는 “높은 예측력과 분류 정확도를 가진 기법”이라는 설명이다.

즉, 앞서 LSTM 모델에 의해 측정한 이용자 숫자, 차내 탑승인원 등을 RF로 분석한 후 이를 모두 고려한 버스 배차계획과 노선계획 등을 수립할 수 있도록 한 것이다. 즉, 챗GPT 기반의 LSTM에 의해 수집된 데이터셋을 기반으로 RF에 의해 시내버스의 문제점을 해결하기 위한 최종 결론을 도출하는 셈이다.

 랜덤포레스트 개념도. (출처=한국교통연구원)

랜덤포레스트 기법, ‘종로2가’ 등 혼잡한 정류장 추출

이는 특히 챗GPT를 활용해 LSTM 모델을 구축하고, 이를 기반으로 버스의 외부(이용자 통행량) 및 내부(차내 재차인원) 혼잡도를 학습, 예측한 점이 특징이다. 또 정류장별로 이용 승객들의 숫자를 예측한 경우, 그 평균 정확도는 92.5%에 달하는 것으로 나타났다. 차내의 탑승인원을 예측하기 위한 정류장별 이용자 숫자도 평균 약 92%의 정확도를 지닌 LSTM 모델을 도출한 것으로 알려졌다.

이를 종합하면, 평균 약 92.31%의 예측 성능을 가진 LSTM 순환신경망 모델에 의해 이같은 교통문제 해법을 도출한 셈이다. 또 이처럼 평균 예측 정확도 약 92%의 성능을 가지는 LSTM 인공신경망 모델을 활용한 결과, 종로2가, 용산한신아파트 정류장을 지나는 구간에서 이용 승객들의 숫자가 가장 많은 것으로 나타났다. “이는 각 노선별로 예측되는 이용자 통행량 자료를 기반으로 각 노선을 종속변수로 하는 ‘랜덤포레스트’ 분류 분석 결과에 따른 것”이란 설명이다.

 최종 혼잡도 개선 우선수위 정류장. (출처=한국교통연구원)

결국 수집한 데이터와 챗GPT로 구성한 LSTM, 그리고 ‘랜덤포레스트’ 코드를 활용하면 시내버스 이용자 숫자와 탑승인원을 예측할 수 있다. 나아가선 버스 정류장마다 각기 다른 혼잡도를 분석함으로써 좀더 합리적인 버스 노선을 구축할 수 있다는 결론이다.