0. AbstractAbstract 부분에서는 기존에 사용하던 fine-tuning과 저자들이 제시하는 prefix-tuning을 비교하고 있다.Fine-tuning→ downstream task를 처리하기 위해 전체 파라미터를 모두 학습해야 하며, 해당 모델을 저장할 때에도 모델 전체를 copy해야한다.Prefix-tuning→ Langauge model의 parameter들은 freeze한다. 대신 앞에 붙여지는 continuous task-specific vector를 optimize하는 방식이다. 이때 continous task-specific vector를 prefix라고 부른다. Prefix-tuning은 prompting에서 영감을 받았다고 한다. 이때 prompt와 관련된 의미들은 다음과 ..
AI
1. IntroductionNLP를 다루는 많은 Application들은 매우 큰 PTLM을 여러 downstream task를 다루기 위해 adapting 방식을 사용했다. adaptation은 일반적으로 pre-trained model의 전체 파라미터를 update하는 fine-tuning을 사용했다. 하지만 점차 NLP에서 개발되는 모델들이 커지면서 이런 방법은 굉장히 비효율적이게 되었다. (GPT3만 봐도 175 billion개의 학습가능한 파라미터가 존재한다. 이를 모두 학습시킬려면 시간적으로도, 컴퓨팅 자원적으로도 비용이 굉장히 많이든다.) 따라서 위와 같은 fine-tuning 방식을 피하기 위해 몇 개의 파라미터만을 adapting하거나 외부 모듈을 학습하는 방식이 계속 연구되고 있다. (..
0. AbstractGPT, Bert와 같은 Large Language Model(LLM)을 Fine-tuning하는 것은 굉장히 효과적인 transfer mechanism이지만, fine-tuning은 많은 downstream task들에 대해 파라미터적으로 비효율적이다. (모든 테스크에 대해 항상 전체 모델을 다시 학습시켜야하기 때문이다. 즉, 모든 파라미터를 다시 학습시킨다.)이에 대한 대안으로 논문 저자들은 adapter module을 통해 transfer하는 방법을 제시하고 있다. Adapter module은 compact하고 extensible한 모델을 생성할 수 있다. 각각의 의미는 다음과 같다. Compact Model: 작업마다 조금의 파라미터만을 추가해 문제를 해결하는 모델이다.Exte..