Active Learning을 통한 지속적인 모델 성능 개선

Tech

2024.09.02

신뢰도 높은 자율주행 기술을 구현하기 위해서는 차량 주변의 3차원 환경을 실시간으로 정확하게 재구성하는 것이 필수적입니다. 42dot에서는 실시간으로 작동하는 고성능 3차원 인지 모델을 개발하기 위해 지속적으로 데이터를 수집하고, 모델의 성능을 추적하여 자율주행 기술을 발전시키고 있습니다.

1. 객체 탐지 모델의 중복 예측 문제와 그 영향

자율주행 자동차는 차량 주변의 환경을 재구성하여 장애물의 위치를 파악하고, 다른 차량과 보행자의 움직임을 예측하여, 차량이 안전하게 주행할 수 있는 경로를 계획합니다. 따라서, 자율주행 시스템에서 가장 먼저 수행되는 3차원 객체 탐지 모델의 정확도는 차량의 안정적인 운행에 큰 영향을 미칩니다.

42dot에서는 지속적으로 데이터를 수집하여 모델을 평가, 개선하고 있습니다. 최근 추가된 데이터로 모델을 평가한 결과, 작은 구역에 보행자가 4-5명 모여있는 경우, 실제 보행자 수보다 많은 중복 예측이 발생하는 것을 확인했습니다. 이러한 중복 예측은 자율주행 차량이 존재하지 않는 물체를 인식하게 만들어 비정상적인 움직임을 유발할 수 있습니다. 예측된 결과의 후처리 과정에서 예측 점수의 임계값을 높여 오탐지를 줄일 수 있지만, 이 경우 탐지하지 못하는 보행자의 수가 증가하여 안전에 위협이 될 수 있습니다.

예측된 보행자의 점수가 낮은 경우, 검출된 물체가 중복된 예측일 확률이 높아집니다.

2. Active Learning Pipeline

42dot에서는 모델의 약점을 개선하기 위해 유사한 케이스의 데이터를 지속적으로 수집하고 네트워크 학습에 포함시키는 Active Learning Pipeline을 운영하고 있습니다. 이때 새롭게 수집된 데이터를 사람의 개입을 최소화하며 효율적으로 모델 학습에 포함시키기 위해, 비실시간으로 동작하는 고성능 모델을 사용하고 있습니다. 이렇게 고성능 모델에서 학습된 지식은, 차량에서 실시간으로 동작하는 모델에 증류(distillation)되어 성능을 향상시키는데 이용됩니다.

3. Transformer 모델 구조 도입

최신의 객체 탐지 모델[1, 2]들은 트랜스포머 구조 도입하여 성능을 크게 향상시키고 있습니다. 트랜스포머는 object query들이 self-attention을 통해 객체 간 정보를 교환하고, feature map의 전체 정보를 활용하여 CNN 구조보다 더 풍부한 정보를 활용할 수 있습니다. 특히 트랜스포머 기반의 객체 탐지 모델은 학습 과정에서 GT와 예측 사이의 one-to-one 매칭을 사용하기 때문에 중복 예측을 억제하는 데 큰 효과가 있습니다. 이러한 트랜스포머 모델의 특성은 보행자 중복 예측 문제를 효과적으로 해결하여 보행자 탐지 성능을 크게 향상시킬 수 것이라고 기대할 수 있습니다.

4. Denoising 기법 활용

하지만 기대와는 다르게 단순히 트랜스포머 기반의 객체 탐지 모델을 도입하는 것만으로는 높은 성능 향상을 확인할 수 없었습니다. 문제의 원인을 파악하기 위해 모델의 클래스 별 object query의 개수를 분석한 결과, 사람이 매우 밀집된 도심 구간에서는 아래와 같이 보행자 주변에서 생성된 object query의 숫자가 매우 많기 때문에 생성된 object query와 GT를 매칭하는 과정에서 학습이 불안정해지는 것을 알 수 있었습니다. 이를 해결하기 위해 2023년 CVPR에서 소개된 Dense Distinct Query[3] 기법을 적용하여 문제를 해결하고 학습의 안정성을 확보할 수 있었습니다.

5. 성능 향상 결과

이와 같이 다양한 기술을 도입하여 보행자 중복 예측의 수를 대폭 감소시키면서 모델의 정밀도(precision)를 크게 향상시켰습니다. 또한, 보행자의 위치, 크기, 진행 방향 등의 예측 품질도 한층 더 개선되었습니다. 이렇게 향상된 고성능 모델은 차량에 적용되어 주행 성능을 높이는 데 사용됩니다.