Posts

Solar-Open2와 한국어 토크나이저 분석

3 Jul, 2026
약 19분 읽기

Solar-Open2를 확인하다가 다시 마주친 한국어 토크나이저 이슈. 법인세효과가라는 작은 토큰을 따라가며, BPE merge와 도메인 코퍼스 비율, long-tail token이 모델 동작에 줄 수 있는 영향을 검토한다.
Tiny-Ko-Stories - 한국어다운 데이터가 작은 모델을 바꿀 수 있을까

14 Jun, 2026
약 21분 읽기

번역 데이터가 아닌 한국어 이야기 200만 편을 만들고, 35M 소형 언어 모델로 데이터 품질의 힘을 확인해 본 실험 기록.
한국어 토크나이저 실험기 3 - 토큰 수를 줄이면 모델도 좋아질까

18 Apr, 2026
약 21분 읽기

한국어 토크나이저 실험 세 번째 기록. TPW가 낮으면 실제 언어 모델도 좋아지는지 확인하기 위해, WS와 C100을 직접 학습해 보고 BPB가 어디서 뒤집히는지 추적했다.
한국어 토크나이저 실험기 2 - 공백의 의미

14 Apr, 2026
약 19분 읽기

한국어 토크나이저 실험 두 번째 기록. 형태소 가설 이후 regex와 공백 처리를 하나씩 바꿔 보며, TPW 기준으로 가장 강하게 남은 변수가 무엇이었는지 정리한다.
5. 분류 II - 판별 분석과 베이즈 분류기

10 Apr, 2026
약 31분 읽기

베이즈 정리로 분류 문제를 바라본다. 조건부 확률에서 출발해 QDA, LDA, 나이브 베이즈의 수식을 단계별로 풀고, 정확도만으로는 부족한 분류 평가 지표까지 정리한다.
한국어 토크나이저 실험기 1 - 형태소 가설이 무너지다

10 Apr, 2026
약 17분 읽기

한국어 토크나이저를 직접 만들며 겪은 첫 번째 실험 기록. 형태소 경계를 반영하면 좋아질 거라는 가설에서 출발해, α와 SuperBPE가 거의 듣지 않고 pre-tokenizer가 핵심 변수로 떠오르기까지의 과정을 정리한다.
4. 분류 I — 로지스틱 회귀

7 Apr, 2026
약 29분 읽기

회귀에서 분류로 넘어간다. 선형 회귀의 한계를 시그모이드 함수로 극복하는 로지스틱 회귀, 닫힌 해가 없을 때 파라미터를 찾는 경사 하강법, 다중 클래스로 확장하는 소프트맥스까지 — 분류 문제의 기본 틀을 세운다.
3. 선형 회귀 II

4 Apr, 2026
약 21분 읽기

선형 회귀를 현실 데이터에 적용하기 위한 확장을 다룬다. 범주형 변수 처리, 변수 간 상호작용 모델링, 수많은 피처 중 최적의 조합을 고르는 피처 선택 등을 살펴본다.

Posts

Solar-Open2와 한국어 토크나이저 분석

Tiny-Ko-Stories - 한국어다운 데이터가 작은 모델을 바꿀 수 있을까

한국어 토크나이저 실험기 3 - 토큰 수를 줄이면 모델도 좋아질까

한국어 토크나이저 실험기 2 - 공백의 의미

5. 분류 II - 판별 분석과 베이즈 분류기

한국어 토크나이저 실험기 1 - 형태소 가설이 무너지다

4. 분류 I — 로지스틱 회귀

3. 선형 회귀 II