'AI/NLP' 카테고리의 글 목록

[논문 리뷰] Prefix-Tuning: Optimizing Continuous Prompts for Generation

2024.05.03· AI/NLP

0. AbstractAbstract 부분에서는 기존에 사용하던 fine-tuning과 저자들이 제시하는 prefix-tuning을 비교하고 있다.Fine-tuning→ downstream task를 처리하기 위해 전체 파라미터를 모두 학습해야 하며, 해당 모델을 저장할 때에도 모델 전체를 copy해야한다.Prefix-tuning→ Langauge model의 parameter들은 freeze한다. 대신 앞에 붙여지는 continuous task-specific vector를 optimize하는 방식이다. 이때 continous task-specific vector를 prefix라고 부른다. Prefix-tuning은 prompting에서 영감을 받았다고 한다. 이때 prompt와 관련된 의미들은 다음과 ..

[논문 리뷰] LoRA: Low-Rank Adaptation of Large Language Models

2024.05.01· AI/NLP

1. IntroductionNLP를 다루는 많은 Application들은 매우 큰 PTLM을 여러 downstream task를 다루기 위해 adapting 방식을 사용했다. adaptation은 일반적으로 pre-trained model의 전체 파라미터를 update하는 fine-tuning을 사용했다. 하지만 점차 NLP에서 개발되는 모델들이 커지면서 이런 방법은 굉장히 비효율적이게 되었다. (GPT3만 봐도 175 billion개의 학습가능한 파라미터가 존재한다. 이를 모두 학습시킬려면 시간적으로도, 컴퓨팅 자원적으로도 비용이 굉장히 많이든다.) 따라서 위와 같은 fine-tuning 방식을 피하기 위해 몇 개의 파라미터만을 adapting하거나 외부 모듈을 학습하는 방식이 계속 연구되고 있다. (..

[논문 리뷰] Parameter-Efficient Transfer Learning for NLP (Adapter)

2024.05.01· AI/NLP

0. AbstractGPT, Bert와 같은 Large Language Model(LLM)을 Fine-tuning하는 것은 굉장히 효과적인 transfer mechanism이지만, fine-tuning은 많은 downstream task들에 대해 파라미터적으로 비효율적이다. (모든 테스크에 대해 항상 전체 모델을 다시 학습시켜야하기 때문이다. 즉, 모든 파라미터를 다시 학습시킨다.)이에 대한 대안으로 논문 저자들은 adapter module을 통해 transfer하는 방법을 제시하고 있다. Adapter module은 compact하고 extensible한 모델을 생성할 수 있다. 각각의 의미는 다음과 같다. Compact Model: 작업마다 조금의 파라미터만을 추가해 문제를 해결하는 모델이다.Exte..

Parameter Efficient Fine-Tuning (PEFT)란?

2024.04.30· AI/NLP

1. 기존의 학습 방법GPT, Bert와 같은 Large Language Model(LLM)이 개발된 후 LLM에 언어를 학습시키고 우리가 적용하려는 task 데이터를 학습시키는 Transfer Learning이 활용되었다.Transfer Learning 이전에는 단지 모델이 있으면 그 모델을 우리의 테스크에 맞는 데이터를 활용해 학습시켰다. 이 경우, A라는 task와 B라는 task가 비슷해도, A task를 학습한 모델을 B task를 학습시킬 때 활용할 수 없다. 다시 처음부터 B task를 학습해야한다. 반면, Transfer Learning의 경우 이전 task(Source Task)를 통해 학습시킨 모델을 그대로 활용하여 학습시킬 수 있다는 장점이 있다. 이러한 Transfer Learnin..

티스토리툴바