
Context
- ChatGPT3.5 출시 이후, LLM 관심도는 증가했으나 한국어로 잘 동작하는 모델이 없었음
- 보안문제가 있어 일부 고객사에서 On-premise LLM의 수요가 있었음
- SOTA 모델이 자주바뀌는 상황이라, 한국어 능력을 높이면서, Trade-off를 최대한 줄이는 파인튜닝 기법이 필요하다고 판단했음
1차: Llama2, Polyglot 기반 파인튜닝 (2023.08.14 ~2023.12.31)
학습데이터, 학습과정, 평가 (열어서 내용보기)
결과요약
#1 7B, english-primary model
- llama-2-7b 모델을 한국어 데이터로 파인튜닝하여 한국어 구사가 가능해질 뿐만아니라 영어를 기반으로한 추론능력도 전이가 됨
- 한국어 수준이 향상된 만큼, 추론 능력의 하락이 보임
- 기존 추론 능력의 하락을 최소화 하도록 영어 데이터를 섞으니 추론능력도 함께 향상됨
- 학습데이터 밸런스가 중요할 것으로 보임
#2 70B, english-primary model
- 모델 사이즈가 커짐에 따라 step당 학습속도가 현저히 느리지만, 수렴속도는 빠름
- 대부분 기계번역으로 구성된 데이터로 학습함에 따른 문제; 답변 시 한국어 화자의 맥락을 고려하지 못함. 한국어 자체 생성 데이터가 필요
- 크기가 작은 모델의 실험을 통해 찾은 하이퍼파라미터 조합이 큰 모델에서 통하지 않음, 큰 모델이 learning_rate에 더 민감하게 반응하는 모습을 관찰하였음
#3 12.8b, korean-primary model