Series: 토크나이저
총 3개의 포스트
-
토크나이저, 언어 모델의 보이지 않는 관문
Updated:1한국어 토크나이저의 원리부터 BPE, WordPiece, SentencePiece까지. 한국어가 영어보다 토큰을 2배 더 쓰는 이유와 언어 모델 성능에 미치는 영향을 깊이 있게 다룹니다.
-
한국어 토크나이저 실험기 1 - 형태소 가설이 무너지다
0한국어 토크나이저를 직접 만들며 겪은 첫 번째 실험 기록. 형태소 경계를 반영하면 좋아질 거라는 가설에서 출발해, α와 SuperBPE가 거의 듣지 않고 pre-tokenizer가 핵심 변수로 떠오르기까지의 과정을 정리한다.
-
한국어 토크나이저 실험기 2 - 공백의 의미
0한국어 토크나이저 실험 두 번째 기록. 형태소 가설 이후 regex와 공백 처리를 하나씩 바꿔 보며, TPW 기준으로 가장 강하게 남은 변수가 무엇이었는지 정리한다.