생성형 LLM은 다양한 NLP 테스크에 대해 놀라운 진전을 이뤄냈습니다. 그러나, 이러한 진전은 번역 문제에 대해서는 반영되지 않아습니다, 특히 중간 규모 모델(7B 또는 13B 파라미터)은 기존의 supervised encoder-decoder 번역 모델들보다 뒤쳐져 있습니다. 기존 연구들은 중간 규모 모델의 번역 능력을 향상시키기 위해 시도한 적이 있지만, 그들의 성과는 제한적이었습니다. 본 연구에서는 전통적으로 번역 모델이 의지했던 방대한 parallel data가 필요하지 않은, 번역 테스크를 위해 특별히 설계된 LLM에 대한 새로운 fine-tuning 접근 방식을 제안한다. 2단계의 fine-tuning 으로 구성된 접근 방식: 단일 언어에 대한 초기 fine-tuning + 소규모 고품질 parallel data에 대한 fine-tuning. 우리는 이러한 전략을 통해 발전된 LLM인 ALMA(Advanced Language Model-based translator)를 소개합니다. LLaMA-2를 기본 모델로 만들어진 우리의 모델 결과는 WMT’21 (2 directions)과 WMT’22 (8 directions)의 테스트 데이터셋에 대해 zero-shot으로 10개의 번역 지시문에 대해 평균적으로 12 BLEU, 12 COMET 보다 높은 성능을 달성했습니다. 7B 또는 13B의 파라미터를 가지고 우리의 성능은 NLLB-54B model (NLLB TEAM et al., 2022), 그리고 GPT3.5-text-davinci-003 보다 훨씬 뛰어납니다. 이러한 방법은 기계 번역의 새로운 학습 패러다임의 기반을 설립했습니다. (코드)
* parallel data: 두 개 이상의 언어 또는 언어 버전간에 상응하는 텍스트 데이터
ex) 영어: "Hello, how are you?", 스페인어: "Hola, ¿cómo estás?"
* WMT'21 (2 directions): 2021년 WMT 대회의 테스트 데이터 세트(2 directions - 양방향 번역 데이터 셋)
ex) 영어-프랑스어, 프랑스어-영어의 두 가지 번역 방향을 평가할 수 있는 데이터
* WMT'22 (8 directions): 2022년 WMT 대회의 테스트 데이터 세트(여덟 가지 번역 방향을 포함한 데이터셋)
* BLEU (Bilingual Evaluation Understudy):
* COMET (Comet Metric):
1. Introduction
- NLLB-54B(번역 모델의 SOTA) 보다 BLEU, COMET 평가지표에서 좋은 성능을 보임
- (GPT-3.5와 같은) LLM 모델보다 작은 model size임에도 불구하고 BLEU, COMET 평가지표에서 좋은 성능을 보임
- ALMA모델은 LLaMA-2를 base model로 새로운 2개의 전략으로 fine-tuning 진행
(2개의 전략 - 단일 언어에 대한 초기 fine-tuning + 소규모 고품질 parallel data fine-tuning) - 1B 단일 언어 토큰을 fine-tuning 하는 것만으로도 10개의 번역에 대해 NLLB-54B와 비슷한 성능을 낼 수 있고,
이 성능은 16개의 MI200GPU로 18시간 학습시키면 가능함
2. Preliminary
2.1 Task Definition
- 위 함수는 손실함수에 대한 정의이다.
x: source sentence
y: target sentence
I: prompt template
θ: model parameter
T: target sentence length
yt: t-th target token - CLM(Causal Language Modeling)은 번역 작업에 다른 모델링 방법에 비해 더 적합하다.
2.2 A Backbone LLM For Translation
- base model을 정할 때 제로 샷 번역 성능을 우선적으로 평가
- 제로 샷 평가: 영어 중심의 5개 언어 쌍에 대해 제로 샷 평가 진행(test data: WMT’21, WMT’22)
- 결과적으로 BLEU와 COMET평가를 기반으로 LLaMA-2와 MPT-7B 선택
3. DO LLMS HAVE AN APPETITE FOR PARALLEL DATA?
3.1 EXPERIMENTAL DESIGN
- LLaMA-2, MPT-7B를 중점으로 실행 진행
- 영어 -> 러시아어 언어쌍에 집중
- 전처리한 7500만개(75M) parallel sentences를 사용하며 데이터 양을 5단계로 나누었음(10K, 100K, 1M, 5M, and 20M)
- 5단계로 나눈 데이터들을 프롬프트 템플릿을 활용해 파라미터를 업데이트 진행
3.2 OBSERVATIONS
- 표와 같은 실험 결과가 나왔음
- LLaMA-2-7B는 10K 및 100K에서 정점에 도달하는 반면에 MPT-7B는 계속해서 성능이 증가함 - LLaMA-2는 10K, 100K정도의 훈련 데이터만 있으면 정점에 갈 수 있음
- 더 많은 데이터는 오히려 기존 지식을 없애는 경향을 보임 (데이터가 많아졌을 때 오히려 성능이 낮아짐) - parallel 데이터가 너무 많으면 기존 지식을 없앤다.
- 사전 지식이 없는 상태로 20M개의 데이터를 처음부터 학습시켜 테스트 해본 결과 노란색 세모의 성능을 보임
(즉, 새로 학습한 모델과 20M으로 fine-tuning한 모델이 큰 차이가 없기 때문에 LLM의 기존 지식을 삭제했다고 생각함) - 그래서 LLM은 방대한 양을 학습 데이터로 이용하는 학습으로 접근해서는 안된다.
4. A NEW TRAINING RECIPE
- 새로운 학습 방법, 단일 언어에 대한 파인튜닝 + 고품질 paralllel 데이터로 파인튜닝 -> ALMA
- 단일 언어에 대한 파인튜닝 (Monolingual Data Fine-tuning)
- LLaMA와 같은 LLM들은 주로 영어 중심의 데이터로 학습되어 있음. (그래서 다국어 번역 성능이 낮음)
- 비영어권 언어의 단일 언어 데이터를 fine-tuning해서 해당 언어에 대한 역량을 향상시킴
- 영어를 잊어버리지 않도록 fine-tuning 중에 영어 단일 언어 데이터도 추가 - 고품질 데이터에 대한 파인튜닝 (High-Quality Data Fine-tuning)
- 고품질의 작은 parallel data만 필요
- 사람이 직접 작성한 데이터셋(from WMT test data)과 Flores-200 데이터셋을 활용
- full-weight와 light-weight LoRA 파인튜닝을 고려한다.
5. EXPERIMENTS
5.1 Data
- parallel 학습 데이터(58K): 사람이 작성한 테스트 데이터 셋(from WMT’17 to WMT’20) + 테스트 셋(From Flores-200)
- 테스트 데이터: 10개(5개쌍)의 번역 방향(cs-en, de-en, is-en, zh-en, ru-en)
is-en 데이터: WMT’21, 그외 데이터: WMT’22 - parallel 검증 데이터(8K): 앞에서 사용한 테스트 데이터를 제외한 데이터 셋(from WMT’21)
- 단일 데이터 셋: OSCAR (무자기로 단일 언어 데이터 셋을 비율대로 선택)
20%(de), 14%(cs), 8%(is), 19%(zh), 22%(ru), 17%(en)
5.2 TRAINING SETUP
- ALMA-7B/AMLA-13B
- (LLaMA-2-7B or LLaMA-13B 모델에 대해서)
monolingual data로 full-weight fune-tuning을 진행하고 높은 품질의 parallel data로 fune-tuning 진행 - ALMA-7B-LoRA/AMLA-13B-LoRA
- (LLaMA-2-7B or LLaMA-13B 모델에 대해서)
monolingual data로 full-weight fune-tuning을 진행하고 높은 품질의 parallel data로 LoRA fune-tuning 진행
- LoRA rank: 16, 파라미터 업데이트는 파라미터 0.1%만 진행(7B기준-7.7M, 13B기준-12M) - Batch size: 256, warm-up ratio: 0.01, 최대 시퀀스 토큰 수: 512
- monolingual data fine-tuning은 LLaMA-2-7B: 20B 토큰 학습, LLaMA-2-13B: 12B 토큰 학습
5.3 BASELINES
- Prior Similar Studiesdhk와 SoTA Models에 대해서 번역 결과(en->xx) 수치를 비교하였음
5.4 RESULTS
- 결론적으로 NLLB-54B, GPT-3.5-D에 비해 좋은 성능을 내지만, GPT-3.5-T와 GPT-4에 비해서는 성능이 약간 떨어진다.
6. ANALYSIS
6.1 HOW MUCH MONOLINGUAL DATA TO USE?
- ALMA 모델의 가장 좋은 설정은, 20B 또는 12B 토큰으로 fine-tuning 하는 것이다.
- fine-tuning이 된 1B개의 단일 언어 토큰을 사용할 때마다 모델을 저장하고 성능평가 진행
6.2 THE EFFECT OF MONOLINGUAL DATA AND PARALLEL DATA QUALITY
6.3 IS MORE HUMAN-WRITTEN PARALLEL DATA BETTER?
6.4 PARALLEL DATA FINE-TUNING VS. IN-CONTEXT LEARNING
7. CONCLUSION
- 기존 번역 모델처럼 광범위한 parallel 데이터를 수집할 필요 없다는 것을 보여줌
- 비영어에 대한 LLM 성능을 올리기 위해 2단계 프로세스를 포함한 새로운 학습법 제시
- 10개의 번역에 대해서 ALMA 모델은 NLLB-54B 및 gpt-3.5-D 보다도 BLEU, COMET 평가 지표에서 성능이 뛰어남