Tag: LLM

All the articles with the tag "LLM".

Solar-Open2와 한국어 토크나이저 분석

3 Jul, 2026
약 19분 읽기

Solar-Open2를 확인하다가 다시 마주친 한국어 토크나이저 이슈. 법인세효과가라는 작은 토큰을 따라가며, BPE merge와 도메인 코퍼스 비율, long-tail token이 모델 동작에 줄 수 있는 영향을 검토한다.
Tiny-Ko-Stories - 한국어다운 데이터가 작은 모델을 바꿀 수 있을까

14 Jun, 2026
약 21분 읽기

번역 데이터가 아닌 한국어 이야기 200만 편을 만들고, 35M 소형 언어 모델로 데이터 품질의 힘을 확인해 본 실험 기록.
한국어 토크나이저 실험기 3 - 토큰 수를 줄이면 모델도 좋아질까

18 Apr, 2026
약 21분 읽기

한국어 토크나이저 실험 세 번째 기록. TPW가 낮으면 실제 언어 모델도 좋아지는지 확인하기 위해, WS와 C100을 직접 학습해 보고 BPB가 어디서 뒤집히는지 추적했다.
한국어 토크나이저 실험기 2 - 공백의 의미

14 Apr, 2026
약 19분 읽기

한국어 토크나이저 실험 두 번째 기록. 형태소 가설 이후 regex와 공백 처리를 하나씩 바꿔 보며, TPW 기준으로 가장 강하게 남은 변수가 무엇이었는지 정리한다.
한국어 토크나이저 실험기 1 - 형태소 가설이 무너지다

10 Apr, 2026
약 17분 읽기

한국어 토크나이저를 직접 만들며 겪은 첫 번째 실험 기록. 형태소 경계를 반영하면 좋아질 거라는 가설에서 출발해, α와 SuperBPE가 거의 듣지 않고 pre-tokenizer가 핵심 변수로 떠오르기까지의 과정을 정리한다.
토크나이저, 언어 모델의 보이지 않는 관문

Updated: 28 Mar, 2026
약 18분 읽기

한국어 토크나이저의 원리부터 BPE, WordPiece, SentencePiece까지. 한국어가 영어보다 토큰을 2배 더 쓰는 이유와 언어 모델 성능에 미치는 영향을 깊이 있게 다룹니다.
AI 개발을 시작하며

11 Mar, 2026
약 4분 읽기

2023년 어느 밤, 나는 외장하드에 120GB가 넘는 파일을 황급히 다운로드하고 있었다.
LLaMa Fine-tuning

20 Jun, 2023
약 9분 읽기

LLaMa 유출 사건 이후 로컬 Ai에 관심이 생겨 여러 시도를 했습니다. 그간 시행 착오를 정리했습니다.

Tag: LLM

Solar-Open2와 한국어 토크나이저 분석

Tiny-Ko-Stories - 한국어다운 데이터가 작은 모델을 바꿀 수 있을까

한국어 토크나이저 실험기 3 - 토큰 수를 줄이면 모델도 좋아질까

한국어 토크나이저 실험기 2 - 공백의 의미

한국어 토크나이저 실험기 1 - 형태소 가설이 무너지다

토크나이저, 언어 모델의 보이지 않는 관문

AI 개발을 시작하며

LLaMa Fine-tuning