포티투닷 | 42dot - We Are A Mobility AI Company

Towards Understanding the Relationship between In-context Learning and Compositional Generalization

Authors : Sungjun Han and Sebastian Pado

Conference : COLING

Year Published : 2024

Topics : Natural Language Processing

Abstract

구성적 일반화(compositional generalization)의 원리에 따르면, 복잡한 표현의 의미는 그 구성 요소의 의미와 그것이 결합되는 방식의 함수로 이해될 수 있습니다. 이 원리는 인간 언어 처리에 있어 중요할 뿐만 아니라, 분포 외 데이터(out-of-distribution data)를 다루는 NLP 모델에도 중요하다고 볼 수 있습니다. 그러나 Transformer를 포함한 많은 신경망 모델들은 구성적 일반화에 어려움을 겪는 것으로 나타났습니다. 본 논문에서는 in-context learning을 모델에 강제하는 것이 구성적 일반화를 촉진하는 귀납적 편향(inductive bias)을 제공할 수 있다는 가설을 제시합니다. 이 가설을 검증하기 위해, 우리는 일반적인 학습이 매우 어려운 설정에서 인과적 Transformer(causal Transformer)를 훈련합니다. 구체적으로, 우리는 학습 데이터의 예제 순서를 다르게 제시하고, 인스턴스 레이블을 임의로 섞어줍니다. 이는 데이터셋에서 가능한 모든 few-shot learning 문제로 모델을 훈련시키는 것과 같습니다. 모델은 초기 예제를 활용하여 후속 예제를 일반화하는, 즉 in-context learning을 통해 과제를 해결할 수 있습니다. SCAN, COGS, GeoQuery 데이터셋에서 평가한 결과, 이와 같은 방식으로 훈련된 모델은 구성적 일반화에서 개선된 성능을 보였습니다. 이는 in-context learning 학습 문제를 일반화를 위한 귀납적 편향으로 사용하는 것이 유용하다는 것을 시사합니다.