Skip to content
psymon-ai

Posts

  • 한국어 토크나이저 실험기 2 - 공백의 의미

    0

    한국어 토크나이저 실험 두 번째 기록. 형태소 가설 이후 regex와 공백 처리를 하나씩 바꿔 보며, TPW 기준으로 가장 강하게 남은 변수가 무엇이었는지 정리한다.

  • 5. 분류 II - 판별 분석과 베이즈 분류기

    0

    베이즈 정리로 분류 문제를 바라본다. 조건부 확률에서 출발해 QDA, LDA, 나이브 베이즈의 수식을 단계별로 풀고, 정확도만으로는 부족한 분류 평가 지표까지 정리한다.

  • 한국어 토크나이저 실험기 1 - 형태소 가설이 무너지다

    0

    한국어 토크나이저를 직접 만들며 겪은 첫 번째 실험 기록. 형태소 경계를 반영하면 좋아질 거라는 가설에서 출발해, α와 SuperBPE가 거의 듣지 않고 pre-tokenizer가 핵심 변수로 떠오르기까지의 과정을 정리한다.

  • 4. 분류 I — 로지스틱 회귀

    0

    회귀에서 분류로 넘어간다. 선형 회귀의 한계를 시그모이드 함수로 극복하는 로지스틱 회귀, 닫힌 해가 없을 때 파라미터를 찾는 경사 하강법, 다중 클래스로 확장하는 소프트맥스까지 — 분류 문제의 기본 틀을 세운다.

  • 3. 선형 회귀 II

    0

    선형 회귀를 현실 데이터에 적용하기 위한 확장을 다룬다. 범주형 변수 처리, 변수 간 상호작용 모델링, 수많은 피처 중 최적의 조합을 고르는 피처 선택 등을 살펴본다.

  • 2. 선형 회귀 I

    2

    선형 회귀(Linear Regression)의 핵심을 파헤친다. RSS를 최소화하는 최소 제곱법, 그 배후의 최대 우도 추정(MLE), 행렬로 정리한 정규 방정식까지 — 머신러닝에서 가장 기본이 되는 예측 모델의 수학적 토대를 세운다.

  • 1. 지도 학습의 기초

    1

    머신러닝의 출발점 지도 학습(Supervised Learning)의 4단계(모델 형태 결정, 목표 정의, 학습, 예측)를 직접 코드로 따라가며 이해한다. 파라메트릭 모델과 논파라메트릭 모델의 차이, 그리고 과적합의 위험까지.

  • 토크나이저, 언어 모델의 보이지 않는 관문

    Updated:
    1

    한국어 토크나이저의 원리부터 BPE, WordPiece, SentencePiece까지. 한국어가 영어보다 토큰을 2배 더 쓰는 이유와 언어 모델 성능에 미치는 영향을 깊이 있게 다룹니다.