LLaMa Fine-tuning

Open Table of contents

들어가는 글
LLaMa Fine-tuning
lit-llama를 이용해 Base-model 만들기
- 한국어 토크나이저 문제
- 학습 환경과 몇 가지 실수
polyglot-QLora로 개인 번역기 만들기

들어가는 글

안녕하세요. 올해 LLaMa 유출 사건 이후 로컬 Ai에 관심이 생겨 여러 시도를 했습니다. 그간 시행 착오를 정리할 겸 블로그에 공유합니다.

가장 먼저 시도한건 Alpaca 모델을 한국어로 학습하는 것이었습니다. 처음에는 Alpaca 원본 데이터를 번역할 생각이었는데 이미 번역 + 학습까지 마친 KoAlpaca 모델이 있다는 걸 알고 KoAlpaca 데이터셋 + 나무위키 데이터를 결합해 Runpod에서 A100 * 4대로 학습했습니다.

2023년 4월 23일 가득한 기대를 안고 Golani 라고 이름 붙인 모델을 실행했으나 결과는 기대에 많이 못 미쳤습니다. 여러 문제가 있었는데 가장 큰 문제는 한국어를 너무 못한다는 점이었습니다. 나중에 안 사실이지만 원본 LLaMa 모델은 한국어 데이터가 빈약해 단순 Fine-tuning 으로는 한국어 능력을 발휘하기 어려웠습니다. 결국 고라니 모델은 잠시 보류하고 다른 방법을 찾아야 했습니다.

고라니의 한국어 실력

lit-llama를 이용해 Base-model 만들기

한국어 기반으로 학습한 Polyglot 모델을 파인튜닝 해야하나 고민하던 중. RedPajama에 대한 글을 발견했습니다. 흥미로운 점은 학습에 사용한 1TB의 학습 데이터를 공개한 것입니다. 아니나 다를까 데이터 공개 직후 RedPajama 데이터를 이용한 오픈 라이선스 LLaMa모델 OpenLLaMa 프로젝트가 진행되는 것을 보았습니다.

그때 떠올렸습니다. LLaMa 모델과 동일한 구조를 가져가면서 데이터만 한국어 90% 영어 10%인 모델이 있다면 어떨까. 물론 이는 개인의 범주를 넘는 일입니다. 그래도 일단 되는데까지 해보기로 마음 먹고 한국어 데이터를 모으기 시작했습니다.

이후 손닿는대로 한국어 데이터를 수집했는데 역시나 1TB는 무리였습니다. 약 50GB 정도 데이터를 모은 뒤 결과가 어찌되든 한 번 학습을 돌려보기로 했습니다. 데이터는 RedPajama 형식에 맞게 수정하고 학습 코드는 LLaMa 원본 코드에서 GPL 라이센스를 제거한 Lit-LLaMa를 사용했습니다.

한국어 토크나이저 문제

문제는 토크나이저였는데 Lit-LLaMa모델 학습용 토크나이저는 한국어 데이터를 고려하지 않았기에 한국어 데이터를 처리하기 부적합했습니다. 그렇다고 polyglot용 토크나이저를 사용하자니 데이터만 한국어인 LLaMa 모델을 만든다는 처음 취지와 맞지 않았습니다. 결국 LLaMa에서 사용하는 Sentencepiece를 직접 수집한 데이터로 다시 학습시켜 사용했습니다. 이게 최선인지는 잘 모르겠습니다. 혹시 따라해보실 분은 이 코드를 사용하시면 됩니다.

1
import sentencepiece as spm
2
 from pathlib import Path
3

4
 paths = [str(x) for x in Path('토크나이저 학습용 데이터 디렉토리 경로').glob("*.txt")]
5
 corpus = ",".join(paths)
6
 prefix = "golani"
7
 vocab_size = 32000-7 # 사용자 정의 토큰을 위해 -7
8
 spm.SentencePieceTrainer.train(
9
     f"--input={corpus} --model_prefix={prefix} --vocab_size={vocab_size + 7}" +
10
     " --model_type=bpe" +
11
     " --max_sentence_length=999999" + # 문장 최대 길이
12
     " --pad_id=0 --pad_piece=<pad>" + # pad (0)
13
     " --unk_id=1 --unk_piece=<unk>" + # unknown (1)
14
     " --bos_id=2 --bos_piece=<s>" + # begin of sequence (2)
15
     " --eos_id=3 --eos_piece=</s>" + # end of sequence (3)
16
     " --byte_fallback=true" + # add byte_fallback for unk tokens
17
     " --user_defined_symbols=<sep>,<cls>,<mask>"
18
 ) # 사용자 정의 토큰

학습 환경과 몇 가지 실수

모델 학습에 상당한 시간이 소요될 것이기에 AWS EC2 환경에서 V100 * 4 대를 이용해 학습했습니다. 이 과정에서 몇 가지 실수가 있었는데 첫 번째는 Out of memory 오류를 해결하려고 모델 layer와 head를 절반으로 줄인 것입니다. LLaMa 7B 모델을 학습하기에는 VRam이 부족하여 3B모델이라도 만들어보려던 것인데 단순하게 절반값을 설정했더니 다른 3B 모델과 호환이 안되는 독자규격이 되어버렸습니다. 때문에 hf모델로 변환, ggml 변환, 양자화 등 모든 과정에 큰 번거로움이 뒤따랐습니다.

두번째는 학습이 중간에 실패할 경우 이어서 학습하는 코드를 구현하지 않은 것입니다. 16시간 정도 학습한 데이터를 2번 날려먹었습니다. 결국 AWS 크레딧을 거의 다 소진하여 학습을 중단했고 2,700 step을 돌린 미완성의 무언가만 남았습니다. 그래도 애정을 갖고 lit-golani라고 이름 짓고 실행해봤습니다.

신이 된 73세 조태호씨

의도치 않은 공포영화 도입부

직장 내공 남용 금지법

보다시피 문장이 엉망이지만 생각보단 나쁘지 않다고 느꼈습니다. 50GB 데이터로 2700step 돌린 원본 모델이 그래도 한국어 흉내는 냈으니 말입니다. LLaMa 원본 모델 한국어 실력이랑 좀 비슷한 것 같기도 합니다.

결과물을 보고 나니 더 욕심이 생겼습니다. 더 많은 데이터와 더 좋은 하드웨어가 있다면 소형 한국어 LLaMa base 모델을 만드는 것도 가능해 보였습니다. 그래서 더 많은 데이터를 모으고 부족한 부분은 RedPajama 1TB 데이터를 번역해야겠다고 생각하게 됐습니다. 이 시점에서 고민이 생겼는데 1TB라는 용량은 번역 프로그램으로 돌리기엔 상당한 시간과 비용이 필요했던 까닭입니다.

polyglot-QLora로 개인 번역기 만들기

그때 우연히 흥미로운 글을 발견했습니다. QLoRa를 이용하면 Colab에서 Polyglot-12.8B 모델을 학습할 수 있다는 놀라운 내용이었습니다. 게다가 이미 한국어 능력이 뛰어난 polyglot 모델이기에 영-한 번역기로 충분하겠다고 판단하고 바로 도전해봤습니다.

원본 코드는 여기에서 제가 사용한 코드는 여기에서 확인할 수 있습니다. 데이터는 Ai-hub의 영-한 번역 데이터를 사용했습니다. Ai-hub 정책상 데이터를 직접 공유할 수는 없지만 사이트에서 다운받으시고 아래 코드 실행하시면 제가 사용한 데이터 셋과 동일합니다.

1
import json
2

3
 # 디렉토리 경로와 파일명
4
 directory = "데이터 다운로드 위치/"
5
 file_name = "일상생활및구어체_영한_valid_set.json"
6

7
 # JSON 파일 열기
8
 with open(directory + file_name, "r", encoding="utf-8") as file:
9
     data = json.load(file)
10

11
 converted_data = []
12
 for item in data["data"]:
13
     converted_item = {
14
         "instruction": "주어진 문장이 한국어일 경우 영어로, 영어일 경우 한국어로 번역하시오.",
15
         "input": item["en"],
16
         "output": item["ko"]
17
     }
18
     converted_data.append(converted_item)
19

20
 output_file_name = "clean_" + file_name
21
 with open(directory + output_file_name, "w", encoding="utf-8") as output_file:
22
     json.dump(converted_data, output_file, ensure_ascii=False, indent=4)

Colab Pro 환경에서 A100으로 약 8시간 정도 학습했습니다. 학습이 완료되면 여기서 실행해 볼 수 있습니다. 번역 결과 자체는 생각보다 준수했습니다. 문제는 한 번 실행에 4분 정도 소요된다는 점이었습니다. 실행 속도를 높이기 위해 ggml로 변환했습니다. ggml 변환을 위해 먼저 QLora 파일과 원본 모델을 하나로 병합합니다.

1
import sys
2
 import torch
3
 from peft import PeftModel
4
 from transformers import AutoModelForCausalLM
5

6
 # Based on https://github.com/tloen/alpaca-lora/blob/main/export_hf_checkpoint.py
7
 # Note that this does NOT guard against no-op merges. I would suggest testing the output.
8

9
 if len(sys.argv) != 4:
10
     print("Usage: python export_hf_checkpoint.py <source> <lora> <dest>")
11
     exit(1)
12

13
 source_path = sys.argv[1]
14
 lora_path = sys.argv[2]
15
 dest_path = sys.argv[3]
16

17
 base_model = AutoModelForCausalLM.from_pretrained(
18
     source_path,
19
     load_in_8bit=False,
20
     torch_dtype=torch.float16,
21
     device_map={"": "cpu"},
22
     trust_remote_code=True,
23
 )
24

25
 lora_model = PeftModel.from_pretrained(
26
     base_model,
27
     lora_path,
28
     device_map={"": "cpu"},
29
     torch_dtype=torch.float16,
30
 )
31

32
 # merge weights - new merging method from peft
33
 lora_model = lora_model.merge_and_unload()
34
 lora_model.train(False)
35

36
 lora_model_sd = lora_model.state_dict()
37
 deloreanized_sd = {
38
     k.replace("base_model.model.", ""): v
39
     for k, v in lora_model_sd.items()
40
     if "lora" not in k
41
 }
42

43
 base_model.save_pretrained(
44
     dest_path, state_dict=deloreanized_sd, max_shard_size="1024MB"
45
 )

저장한 파일을 아래 명령어로 실행하면 됩니다.

1
python 파일명.py <원본 모델 위치> <Lora 파일 위치> <저장할 경로>

polyglot-12.8b 모델을 병합하는 경우 16GB ram으로는 부족합니다. 저는 ram이 충분한 runpod을 하나 생성해서 진행했습니다. 병합이 끝났다면 이제 ggml로 변환을 진행합니다.

1
import sys
2
 import struct
3
 import json
4
 import numpy as np
5

6
 from transformers import AutoModelForCausalLM, AutoTokenizer
7

8
 # output in the same directory as the model
9
 dir_model = "병합 파일이 있는 디렉토리"
10
 fname_out = "ggml파일 저장할 디렉토리/ggml-model-f16.bin"
11
 ftype = 1
12

13
 with open(f"{dir_model}/config.json", "r", encoding="utf-8") as f:
14
     hparams = json.load(f)
15
     print(f"open susseced! {dir_model}/config.json")
16

17
 tokenizer = AutoTokenizer.from_pretrained(dir_model)
18
 print("load susseced! tokenizer")
19
 model = AutoModelForCausalLM.from_pretrained(dir_model, low_cpu_mem_usage=True)
20
 print("load susseced! model")
21

22
 list_vars = model.state_dict()
23
 for name in list_vars.keys():
24
     print(name, list_vars[name].shape, list_vars[name].dtype)
25

26
 fout = open(fname_out, "wb")
27

28
 print(hparams)
29

30
 fout.write(struct.pack("i", 0x67676d6c)) # magic: ggml in hex
31
 fout.write(struct.pack("i", hparams["vocab_size"]))
32
 fout.write(struct.pack("i", hparams["max_position_embeddings"]))
33
 fout.write(struct.pack("i", hparams["hidden_size"]))
34
 fout.write(struct.pack("i", hparams["num_attention_heads"]))
35
 fout.write(struct.pack("i", hparams["num_hidden_layers"]))
36
 fout.write(struct.pack("i", int(hparams["rotary_pct"]*(hparams["hidden_size"]//hparams["num_attention_heads"]))))
37
 fout.write(struct.pack("i", hparams["use_parallel_residual"] if "use_parallel_residual" in hparams else True))
38
 fout.write(struct.pack("i", ftype))
39

40
 # TODO: temporary hack to not deal with implementing the tokenizer
41
 for i in range(hparams["vocab_size"]):
42
     text = tokenizer.decode([i]).encode('utf-8')
43
     fout.write(struct.pack("i", len(text)))
44
     fout.write(text)
45

46
 for name in list_vars.keys():
47
     data = list_vars[name].squeeze().numpy()
48
     print("Processing variable: " + name + " with shape: ", data.shape)
49

50
     # we don't need these
51
     if name.endswith(".attention.masked_bias") or     \
52
        name.endswith(".attention.bias") or \
53
        name.endswith(".attention.rotary_emb.inv_freq"):
54
         print("  Skipping variable: " + name)
55
         continue
56

57
     n_dims = len(data.shape)
58

59
     # ftype == 0 -> float32, ftype == 1 -> float16
60
     ftype_cur = 0
61
     if ftype != 0:
62
         if name[-7:] == ".weight" and n_dims == 2:
63
             print("  Converting to float16")
64
             data = data.astype(np.float16)
65
             ftype_cur = 1
66
         else:
67
             print("  Converting to float32")
68
             data = data.astype(np.float32)
69
             ftype_cur = 0
70
     else:
71
         if data.dtype != np.float32:
72
             print("  Converting to float32")
73
             data = data.astype(np.float32)
74
             ftype_cur = 0
75

76
     # header
77
     str = name.encode('utf-8')
78
     fout.write(struct.pack("iii", n_dims, len(str), ftype_cur))
79
     for i in range(n_dims):
80
         fout.write(struct.pack("i", data.shape[n_dims - 1 - i]))
81
     fout.write(str)
82

83
     # data
84
     data.tofile(fout)
85

86
 fout.close()
87

88
 print("Done. Output file: " + fname_out)
89
 print("")

주의점은 병합한 파일이 있는 디렉토리 안에 원본 모델에서 복사한 3개 파일을 넣어줘야 합니다.

tokenizer.json
tokenizer_config.json
special_tokens_map.json

여기까지 마쳤다면 이제 양자화만 진행하면 됩니다. 양자화 방법은 ggml 레포지토리 GPT-NeoX 예제를 따라하시면 됩니다. 만약 모든 과정이 번거롭다면 제가 올려놓은 파일을 받아서 사용하시면 됩니다. 12.8b-q4_0, 12.8b-q5_1.

ggml을 통해 실행할 수 있습니다. 실행 프롬프트는 아래와 같습니다. -t 는 실행하는 환경 cpu 코어 수와 동일하게 설정하고, -b 는 메모리가 허용하는 한도내에서 크게 잡으시면 됩니다.

1
./bin/gpt-neox -m ../model/ggml-polyglot-translate-q4_0.bin -p "### 명령어: 주어진 문장이 한국어일 경우 영어로, 영어일 경우 한국어로 번역하시오.
2

3
### 원문: 번역할 영어 문장
4

5
### 번역:" -t 8 -b 16 --temp 0.7 --top_k 40 --top_p 0.1

LLaMa 논문의 첫 문단을 번역해 보겠습니다.

Colab으로 8시간만에 만든 모델치고는 번역 품질이 괜찮습니다. 하지만 매번 터미널 환경을 사용하자니 편의성이 떨어집니다. llama.cpp나 webui에서 실행할 수 있으면 좋겠지만 polyglot기반 모델은 두 프로그램에서 돌리는게 쉽지 않습니다. 그래서 gradio로 간단한 ui를 하나 만들었습니다. 코드는 링크를 참조.

실행하면 아래와 같은 심플한 UI가 생성됩니다. 4bit 양자화 후에도 12.8b 모델은 실행에 약 30초가 소요됩니다. 추론 시간을 줄이려 시도해봤지만 실패했습니다.

위 과정을 본인이 원하는 데이터로 바꾸면 Polyglot 모델을 쉽고 다양하게 활용할 수 있을 것입니다.