로컬 AI - LLaMa 유출과 기술 변곡점

LLaMa Sunglass

Open Table of contents

들어가는 글
LLaMa 유출 사태
LLaMa와 로컬 AI 대격변
에필로그: OpenAI의 경우는?
로컬 AI가 변화시킬 미래

들어가는 글

안녕하세요. 오랜만에 글을 씁니다. 그간 많은 개인사가 있었지만 이 글에는 다 각설합니다. 정말 중요한 이야기가 있기 때문입니다. 여러분은 새로운 기술이 산업 전반, 더 나아가 우리 일상을 바꾸는 순간을 목격해보셨나요? 거창하게 들려도 사실 이미 경험해보셨을 겁니다. 다만 그 변곡점에 주목하지 못했을 뿐이죠.

오늘 날 그 후보 중 하나로 강력히 거론되는 기술은 단연 AI입니다. 그리고 그 단초는 ChatGPT가 제공했습니다. 요즘은 어딜가나 ChatGPT 이야기로 떠들썩 합니다. 여러 언론과 테크리뷰 핫토픽에는 GPT 이야기가 빠지지 않고 이를 활용한 프로덕트가 매일 출시되고 있죠. 그러나 AI 발 소동이 어쩐지 익숙하게 느껴지는 이유는 이미 7년 전 경험이 있기 때문일 것입니다.

2016년 구글 알파고와 이세돌 九단의 세기의 대결 이후 모든 언론은 곧 AI의 지배를 받는 세상이 올 것 이라며 공포감을 조성했습니다. 그때 전문가들의 의견은 “그렇게 간단한 문제는 아니다.”라는 것이 중론이었죠. 실제로 이후 AI를 활용한 놀라운 발견들이 있었음에도 AI는 대중의 관심에서 빠르게 멀어졌습니다. 딥마인드는 대중의 피부로 와 닿기엔 너무 깊이 있던 것이죠.

2023년 ChatGPT 발 AI 신드롬도 그렇게 스쳐갈까요? 글세요. 확실한 건 없지만 그렇지 않을 확률이 큽니다. 바로 하나의 사건 때문입니다. 멀리갈 필요 없습니다. 딱 한 달 전으로 가보겠습니다. 2023년 3월 2일 영미권 커뮤니티 사이트 4chan에 하나의 글이 올라옵니다.

LLaMa 유출 사태

LLaMa-leak

바로 Facebook을 서비스하는 Meta에서 개발한 LLM(Large Language Model) LLaMa의 가중치가 토렌트로 유출된 것입니다. 아직 AI 관련 단어에 익숙하지 않은 분을 위해 좀 더 쉽게 설명해 보겠습니다.

ChatGPT는 GPT기반 서비스입니다. 그리고 GPT는 Generative Pre-trained Transformer의 약자입니다. ‘사전 학습된 생성형 변환기’ 정도로 번역할 수 있습니다. 우리가 주목할 것은 ‘사전 학습’이라는 단어입니다.

거대 언어 모델(LLM)을 만들기 위해선 사전 학습이라는 단계가 필요합니다. 사전 학습에 대해 자세히 설명하려면 필요한 지식이 너무 많습니다. 따라서 약간의 오해를 감수하고 거칠게 요약하겠습니다.

대량의 텍스트 데이터를 트랜스포머라는 구조로 학습시키면 각 단어(토큰) 다음에 어떤 단어가 와야 할 지 판단하는 가중치가 나온다.

training pipeline

출처: OpenAI 창립멤버 Andrej Karpathy의 GPT 강연

위 도표에서 볼 수 있듯 이 과정은 대단히 큰 컴퓨팅 파워가 필요합니다. 1300만 원이 넘는 A100 GPU를 수백 대 사용하여 몇 주 이상 학습해야 하죠. OpenAI의 경우 정확한 수치를 밝히지 않았지만 ChatGPT를 학습하는 데 $10M. 한화로 130억 이상이 들었을 것이라 예상하고 있습니다.

따라서 OpenAI는 그 결과물인 가중치 파일을 공개하지 않습니다. 심지어 GPT-4는 학습에 사용한 데이터와 파라메터까지 철저히 비공개로 전환하면서 ‘ClosedAI’라는 비판을 받고 있습니다.

ChatGPT의 놀라운 성과 이후 기존 AI 강자로 평가 받던 구글은 황급히 자사 모델 Bard를 발표했습니다. 그러나 시연회에서 매우 실망스러운 성능을 보여주면서 구글의 모기업 알파벳의 주가가 128조 원 폭락하는 사건이 벌어졌습니다.

이대로 OpenAI의 독주가 이어지나 싶던 때 Meta에서 자사의 언어모델 LLaMa(Large Language Model Meta AI)를 발표합니다. Meta는 논문을 통해 LLaMa(13B) 모델이 훨씬 더 큰 GPT-3(175B) 모델보다 뛰어난 성능을 보인다고 주장했습니다. 이 발표는 큰 관심을 모았고 Meta는 사전 신청을 거친 학술 연구소와 연구원을 대상으로 제한된 접근권한을 부여하며 조심스레 모델을 공개했습니다.

그리고 1주일 뒤 위에서 언급한 대로 LLaMa의 가중치 파일이 완전 유출되는 사건이 발생합니다. 이 파일은 순식간에 전 세계로 퍼졌습니다. OpenAI의 폐쇄성과 검열에 큰 불만을 표하던 오픈소스 커뮤니티는 그야말로 축제가 벌어졌습니다. 같은 날 LLaMa의 github 메인 저장소에 유출된 토렌트 링크를 추가해달라는 풀 리퀘스트가 열리고, 다음날 Huggingface에 변환된 LLaMa모델이 업로드됐습니다.

LLaMa와 로컬 AI 대격변

유출된 LLaMa 가중치 파일은 아직 Finetuning 되지 않은 Base모델이었지만 오픈소스 커뮤니티는 그 잠재력을 바로 파악했습니다. 매일 LLaMa모델을 더 뛰어나게, 더 적은 리소스로 실행하려는 도전이 이어졌습니다.

3월 6일 LLaMa GPTQ 양자화 지원.
3월 10일 text-generation-webui LLaMa 4bit 지원.
3월 11일 cpp로 CPU에서 LLaMa 구동.
3월 13일 LLaMa를 Finetuning한 Stanford-Alpaca 발표.

Stanford Alpaca

Stanford Alpaca는 사람이 작성한 175개의 요청-답변 쌍을 OpenAI의 text-davinci-003을 이용해 52,000개의 데이터로 재생성하여 LLaMa모델을 Finetuning 했습니다. A100 80GB 8대에서 3시간 동안 학습을 진행했으며 이때 사용한 학습 코드와 데이터는 모두 공개되어있습니다.

Stanford Alpaca2

Alpaca의 놀라운 점은 $500미만 금액으로 누구나 개인 GPT를 만들 가능성을 열었다는 점입니다. 물론 Alpaca의 성능은 아직 ChatGPT의 수준에는 못미칩니다. 그러나 Alpaca는 유출된 LLaMa모델 중 가장 작은 7B모델을 사용했다는 점을 기억해야 합니다.

3월 15일 한국어로 번역한 Alpaca 데이터셋을 학습한 KoAlpaca 공개.
3월 30일 Vicuna-13B 공개.

vicuna

Vicuna는 LLaMA와 Stanford Alpaca에 영감을 받아 UC Berkeley, UCSD, CMU, MBZUAI(Mohamed Bin Zayed Univ. of AI)가 공동으로 개발한 오픈소스 언어모델입니다. Vicuna는 ChatGPT의 질문과 답변을 공유하는 서비스 ShardGPT에서 수집된 데이터로 LLaMA를 Finetuning하여 놀라운 성능향상을 이루었습니다.

vicuna-bench

출처: Vicuna-13B vs Bard vs ChatGPT 성능 비교

Vicuna 개발팀은 Vicuna-13B 모델이 GPT-3 모델 대비 92%의 성능을 보였다고 발표했습니다. 물론 이 평가 방법이 정확한지에 대한 부분은 검증이 필요합니다. 그럼에도 LLaMa 유출 한 달 만에 구글의 Bard와 비슷하고 ChatGPT와 비교해 볼 만한 로컬 AI가 등장했다는 사실은 매우 놀랍습니다. 이후 매일 수많은 버전의 LLaMa 파생 모델이 나왔고 여기서 그 목록을 확인할 수 있습니다.

한편, LLaMa를 더 가볍게 만드는 노력은 llama.cpp가 주도했습니다. 해커 Georgi Gerganov가 자신의 맥북에서 LLaMa를 실행하려 시작한 llama.cpp 프로젝트는 그가 개발한 CPU추론 라이브러리 ggml을 기반으로 발전했습니다.

LLaMa-cpp

문자 그대로 매일 새로운 업데이트를 거친 llama.cpp는 유출된 LLaMa 모델 중 가장 큰 65B를 MacBook 1대에서 실행하는 수준으로 만들었습니다. 두 달 전까지 65B 모델을 실행하려면 2대 이상의 80GB A100 GPU가 필요했다는 것을 떠올리면 믿기 힘든 발전 속도입니다.

LLaMa가 AI 업계에 일으킨 파장은 기존 기업들에 적잖은 충격을 주었습니다. 아래 문서는 구글 직원이 작성했다고 알려진 유출 문서입니다. 유출 문서가 으레 그렇듯 진위 여부는 불확실하나 현 상황에 대한 중요한 통찰을 담고 있습니다.

원문 : Google “We Have No Moat, And Neither Does OpenAI”

구글: 우리에겐 방어막이 없습니다. OpenAI 도 마찬가지고요

(번역: arca.live Ai 언어모델 로컬 채널 @hkhk)

google-openai

OpenAI 는 우리에게 많은 걱정을 안겨다 주었습니다. 다음의 이정표는 누가 먼저 돌파하게 될까요? 다음의 큰 한방은 무엇일까요? 불편한 진실은, 우리에겐 이길 가망이 없다는 겁니다. OpenAI 도 마찬가지고요. 두 회사가 티키타카하고 있는 동안, 조용히 제3의 세력이 주도권을 가져가고 있습니다

물론 그 제3의 세력은 오픈소스 진영을 말하는 것입니다. 쉽게 말해 우리들의 성과를 벌컥벌컥 들이키고 있습니다. 우리가 “주요한 미해결 과제” 라고 생각했던 것들은 몇사람의 손에서 오늘 즉각 해결되고 있습니다. 몇가지를 예를 들어보자면

휴대폰에서 언어모델 구동하기 : 사람들은 픽셀 6 하드웨어에서 초당 5 토큰을 뽑아내는데 성공했습니다
대규모의 개인화된 모델: 노트북 수준의 하드웨어에서 하루만에 파인튜닝을 해낼 수 있습니다
출시의 책임소지: 이건 해결이라기 보단 그냥 사람들이 무시하고 있습니다. 그림 모델의 경우 아무 제약없는 모델이 출시되어 사람들에게 마구 배포되고 있는게 현실입니다. 언어모델도 크게 다를것 같진 않습니다
멀티모달: 현재 최고수준급의 ScienceQA 멀티 모달 모델은 한시간 만에 학습이 가능한 수준입니다

현재 우리의 모델은 품질측면에서 약간 더 우위에 있긴 하지만 그 격차는 빠른 속도로 좁혀지고 있습니다. 오픈소스 모델들은 더 빠르고 더 특화가 용이하며, 더 개인용으로 적합하고, 규모대비 역량이 우월합니다. 우리가 천만달러의 예산으로 540B 짜리 모델을 다루느라 고생하는 사이 오픈소스 개인은 13B 모델에 100달러를 들여 새 모델을 찍어냅니다. 그것도 몇 달이 아니라 몇 주 안에 말이죠. 이런 것들은 우리에게 시사하는 바가 큽니다:

이제 우리에게 비법 레시피같은 경쟁우위는 없습니다. Google에게 있어서 최선의 대안은 다른 사람들이 Google 외부에서 하고 있는 일에서 배우고 협력하는 것입니다. 서드파티 통합을 활성화하는 데 우선순위를 두어야 합니다.

제한 없는 무료 대안의 품질이 비슷하다면 사람들은 제한된 모델에 돈을 지불하지 않을 것입니다. 우리의 부가가치가 실제로 존재하는지 고민해야 합니다. 우리가 개발하는 거대 모델은 우리의 속도를 늦추고 있습니다. 장기적으로 최고의 모델은 빠르게 개선을 반복할 수 있는 모델입니다. 이제 20B 미만의 파라미터 모델의 능력이 어느정도인지 알았으니 더 이상 고민할 것 없이 소형 모델 개발에 투자해야 합니다

무슨 일이 일어났나?

3월 초, 메타의 LLaMA가 대중에게 유출되면서 오픈소스 커뮤니티는 처음으로 제대로 된 성능의 파운데이션 모델을 손에 넣었습니다. 이 모델에는 인스트럭션이나 대화에 맞추는 파인튜닝이 적용되지 않았으며 RLHF도 없었습니다. 그럼에도 불구하고 커뮤니티는 자신들이 확보한 것의 가치를 즉시 이해했습니다.

불과 며칠 사이에 엄청난 혁신이 쏟아져 나왔습니다. 한 달이 지난 지금, 인스트럭션 튜닝, 양자화, 품질 개선, 인간의 평가 부여, 멀티모달리티, 인간 피드백 기반 강화학습(RLHF) 등 다양한 버전이 등장했으며, 이 중 상당수는 서로를 기반으로 합니다.

가장 중요한 것은 누구나 손댈 수 있을 정도로 비용 규모 문제를 해결했다는 점입니다. 새로운 아이디어의 대부분은 평범한 사람들의 것입니다. 교육과 실험에 대한 진입 장벽이 대형 연구 기관의 총 역량 수준에서 한 사람의 저녁 시간, 고급 노트북 수준으로 낮아졌습니다.

dalle

이런 일이 일어날걸 예상할 수 있었던 이유

여러 면에서 이것은 누구에게도 놀라운 일이 아닙니다. 현재 오픈소스 LLM의 르네상스는 이미지 생성의 르네상스에 이어 뜨겁게 달아오르고 있습니다. 커뮤니티에서도 이러한 유사점을 발견할 수 있으며, 많은 사람들이 지금을 LLM의 “스테이블 디퓨전 모먼트”라고 부릅니다.

두 사례 모두 저비용 대중의 참여가 가능했던 것은 로라(LoRA)라는 훨씬 저렴한 파인튜닝 기법과 규모 면에서 획기적인 발전(이미지 합성의 경우 스테이블 디퓨전, LLM의 경우 친칠라 규모 법칙)이 결합되었기 때문입니다. 두 경우 모두, 일반인이 충분히 높은 품질의 모델에 대한 액세스가 가능해짐에 따라 전 세계 개인과 기관의 아이디어와 실험, 개선의 반복을 촉발시켰습니다. 두 경우 모두 대형 업체를 빠르게 앞질렀습니다.

이러한 기여는 이미지 생성 영역에서 중추적인 역할을 했으며, Stable Diffusion은 Dall-E와 다른 길을 걷게 되었습니다. 스테이블 디퓨전은 개방형 모델을 채택함으로써 다른 상용 제품과의 결합 (포토샵용 플러그인), 마켓플레이스(civitai), 사용자 인터페이스(automatic1111), 그리고 Dall-E에는 없던 혁신(컨트롤넷)까지 이루어졌습니다.

문화적 영향력 측면에서 빠르게 우위를 점한 스테이블 디퓨전과 점점 더 무의미해져 가는 OpenAI의 Dall-E의 차이는 분명했습니다. 언어모델에서도 같은 일이 일어날지는 아직 미지수이지만, 큰 전제조건에서는 차이가 없습니다.

우리가 놓친 것

오픈소스의 최근 성공을 이끈 혁신들은 우리가 여전히 고민하고 있는 문제를 직접적으로 해결해 줍니다. 오픈소스의 작업에 더 많은 관심을 기울여야만 우리는 같은 실수를 반복하지 않을 수 있습니다.

LoRA는 우리가 더 주목해야 할 놀랍도록 강력한 기술입니다.

LoRA는 모델의 업데이트를 낮은 랭크 행렬의 인수분해로 표현하는 방식으로 작동하므로 모델 학습시 업데이트해야 할 행렬 크기가 최대 수천 배까지 줄어듭니다. 따라서 적은 비용과 시간으로 모델을 파인튜닝할 수 있습니다. 소비자급 하드웨어에서 몇 시간 만에 언어 모델을 개인화할 수 있다는 것은 특히 새롭고 다양한 지식을 거의 실시간으로 통합해야 하는 경우 큰 의미가 있습니다. 이 기술은 Google의 가장 야심찬 프로젝트에 직접적인 영향을 미치고 있음에도 불구하고 LoRA는 Google 내부에서 제대로 활용되지 않고 있습니다

모델을 처음부터 다시 학습시키는 것은 험난한 과정입니다.

LoRA가 효과적인 이유 중 하나는 다른 형태의 파인튜닝과 마찬가지로 여러개의 LoRA를 누적해서 쌓아올리는게 가능하다는 점입니다. 인스트럭션 튜닝과 같은 개선 사항을 적용한 다음 다른 기여자가 대화, 추론 또는 도구 사용을 추가할 때에 둘 다 조합해서 활용할 수 있습니다. 개별적인 LoRA 파인튜닝 결과는 낮은 랭크의 행렬 값이지만, 그 총합은 그럴 필요가 없으므로 시간이 지남에 따라 모델에 대한 전체 랭크의 업데이트가 누적될 수 있습니다.

즉 이것이 의미하는 바는, 새롭고 더 나은 데이터 세트가 사람들의 손에 주어지면 사람들은 전체 모델을 학습시키지 않고도 각자의 모델을 저렴하게 최신 상태로 유지할 수 있다는 것입니다.

반면, 거대 모델을 처음부터 다시 학습시키는 기존의 우리 방식에서는 모델의 사전 학습 결과 뿐만 아니라 그 위에 누적된 파인튜닝들도 모두 버려지게 됩니다. LoRA 방식으로 모델을 사용하는 오픈소스 세계에서는 개선 사항이 널리 퍼지기까지 오래 걸리지 않는데 비해, 꼬박꼬박 전체 재학습을 돌리는 조직(구글같은..) 은 엄청난 손해를 짊어지고 나갈 수 밖에 없습니다

우리는 각각의 새로운 애플리케이션이나 아이디어에 정말 완전히 새로운 모델이 필요한지 신중하게 고려해야 합니다. 모델 가중치를 직접 재사용할 수 없는 주요 아키텍처 개선 사항이 있다면 이전 세대의 기능을 최대한 뽑아낼 수 있도록 증류 기법(distillation)에라도 투자해야 합니다. 더 빠르게 반복적으로 개선된다면, 작은 모델이 대형 모델보다 장기적으로 더 나은 성능을 발휘할 수 있습니다.

LoRA 업데이트는 보편적으로 쓰이는 모델 사이즈(7B~~13B)의 경우 제작 비용이 매우 저렴합니다(~~$100). 즉, 아이디어만 있으면 거의 모든 사람이 업데이트를 제작하여 배포할 수 있습니다. 학습 시간은 보통 하루가 채 걸리지 않습니다. 이 정도 속도라면 이러한 모든 미세 조정의 누적 효과가 크기로 인한 단점을 극복하는 데 그리 오랜 시간이 걸리지 않습니다. 실제로 엔지니어 시간 측면에서 볼 때, 이러한 모델의 개선 속도는 가장 큰 규모 모델로 할 수 있는 것보다 훨씬 빠르며, 최고의 모델 (비쿠냐 13b)은 이미 ChatGPT (3.5 turbo)와 거의 구별할 수 없을 정도입니다. 지구상에서 가장 큰 모델을 유지 관리하는 데 집중하면 오히려 불리한 상황에 처하게 됩니다.

데이터 품질은 데이터 크기보다 더 의미 있습니다.

이러한 프로젝트 중 상당수는 고도로 선별된 소규모 데이터 세트를 학습하여 시간을 절약하고 있습니다. 이는 데이터 확장 법칙 (규모가 커지면 지능도 높아진다)에 어느 정도 예외가 있음을 시사합니다. 이러한 데이터 세트의 존재는 ‘데이터는 생각대로 작동하지 않는다’의 사고 방식에서 비롯된 것으로, Google 외부에서 학습을 수행하는 표준 방식으로 빠르게 자리 잡고 있습니다. 이러한 데이터 세트는 합성 방법(예: 기존 모델에서 최상의 응답을 선별)과 다른 프로젝트에서 도적질해오는 식으로 구축되며, 이 두 가지 방법 중 어느 것도 Google에서 널리 사용되는 방법은 아닙니다. 다행히도 이러한 고품질 데이터 세트는 오픈소스이므로 무료로 사용할 수 있습니다.

open-source

오픈소스와 직접 경쟁하면 손해보는 쪽이 됩니다.

이러한 최근의 진전은 Google의 사업 전략에 직접적이고 즉각적인 영향을 미칩니다. 사용 제한이 없는 고품질의 무료 대안이 있다면 누가 사용 제한이 있는 Google 제품에 비용을 지불할까요? 그리고 우리가 오픈소스를 따라잡을 수 있을 거라고 기대해서는 안 됩니다. 현대의 인터넷이 오픈소스 기술들 기반으로 운영되는 데에는 그만한 이유가 있습니다. 오픈소스에는 우리가 따라할 수 없는 몇 가지 중요한 이점이 있습니다.

그들이 우리를 필요로 하는 것보다 우리에겐 그들이 더욱 절실합니다.

기술을 비밀로 유지하는 것은 항상 어려운 일이었습니다. Google 연구원들은 정기적으로 다른 회사로 이직하고 있기 때문에 우리가 알고 있는 모든 것을 알고 있다고 가정할 수 있으며, 그 흐름이 열려 있는 한 앞으로도 계속 그럴 것입니다.

그 와중에 LLM의 최첨단 연구 비용이 저렴해지면서 우리가 기술 경쟁 우위를 유지하는 것은 더욱 어려워졌습니다. 전 세계의 연구 기관들이 서로의 연구를 바탕으로 우리의 역량을 훨씬 능가하는 폭넓은 방식으로 문제를 해결하고 있습니다. 우리에겐 외부의 혁신에 의해 우리의 가치가 상대적으로 떨어지는 동안 우리의 비밀을 굳건히 지키려고 노력하는 쪽을 선택하거나, 아니면 서로에게서 배우려고 노력하는 쪽을 선택하거나 둘 중의 하나입니다

개인은 기업과 같은 수준의 라이선스 제약에 얽매이지 않습니다.

이러한 혁신의 대부분은 메타에서 유출된 LLaMA 모델을 기반으로 이루어지고 있습니다. 진정한 개방형 모델이 개선됨에 따라 이러한 상황은 필연적으로 변화하겠지만, 중요한 점은 기다릴 필요가 없다는 것입니다. ‘개인적 사용’이 제공하는 법적 방패막이에 덧붙여 기업이 개인을 고소하는 것이 어렵다는 현실은 오픈소스의 개인들이 이러한 기술이 최신일 때 바로 접근하고 있다는 것을 의미합니다.

자신을 위한 기술을 만든다는 것은 그 사용 사례를 제대로 이해한다는 의미입니다.

이미지 생성 분야에서 사람들이 만드는 모델을 살펴보면 애니메이션 제너레이터부터 HDR 랜드스케이프에 이르기까지 방대한 창의성이 쏟아져 나오고 있습니다. 이러한 모델들은 특히 서브컬쳐에 깊이 몰입한 사람들이 사용하고 만들었기 때문에 우리가 따라올 수 없는 깊이 있는 지식과 공감을 제공합니다.

중요한 것은 생태계를 소유하려는 마음: 오픈소스 활용하기

역설적이게도 이 모든 것의 확실한 승자는 바로 메타입니다. 유출된 모델이 자신들의 것이었기 때문에, 그들은 사실상 지구 전체에 해당하는 무료 노동력을 확보한 셈입니다. 대부분의 오픈소스 혁신이 메타의 아키텍처를 기반으로 이루어지고 있기 때문에, 메타가 이를 자사 제품에 직접 통합하는 것을 막을 수 있는 방법은 없습니다.

생태계를 소유하는 것의 가치는 아무리 강조해도 지나치지 않습니다. Google은 이 패러다임을 Chrome과 Android와 같은 오픈소스 제품에서 성공적으로 활용했습니다. 혁신이 일어나는 플랫폼을 소유함으로써 Google은 사고의 리더이자 방향 설정자로서의 입지를 굳히고, 자신보다 더 큰 아이디어에 대한 내러티브를 형성할 수 있는 능력을 얻게 됩니다.

회사가 모델의 소유권을 엄격하게 제어하려 들수록 다른 오픈소스 대안의 매력은 더욱 커집니다. Google과 OpenAI 모두 모델 사용 방식을 엄격하게 통제하는 쪽으로 릴리즈하는 방식을 관성처럼 따라왔습니다. 하지만 이런식으로 사용자를 통제할 수 있다는 생각은 허상일 뿐입니다. 승인되지 않은 목적으로 LLM을 사용하고자 하는 사람은 누구나 자유롭게 사용할 수 있는 모델 중 원하는 것을 선택하면 되는게 현실입니다.

Google은 오픈소스 커뮤니티의 리더로서 폭넓은 논의의 기회를 무시하지 말고 협력을 통해 주도권을 잡아야 합니다. 이는 아마도 소형 언어모델의 가중치를 대중에 공개하는 것과 같은, 기존의 우리로서는 불편한 행동을 취하는 것을 포함할 것입니다. 이는 모델에 대한 일부 통제권을 포기할 수 밖에 없습니다. 하지만 이러한 타협은 불가피합니다. 혁신을 주도하면서 동시에 혁신을 통제할 수는 없기 때문입니다

에필로그: OpenAI의 경우는?

오픈소스에 대한 이 모든 이야기는 OpenAI의 현재 폐쇄적인 정책을 고려할 때 불공평하게 느껴질 수 있습니다. 저들은 공유하지 않을 텐데 우리는 왜 공유해야 하나요? 하지만 사실 우리는 이미 고급 연구원이 꾸준히 유출되는 형태로 모든 것을 그들과 공유하고 있습니다. 이러한 흐름을 막기 전까지는 비밀 유지에 대한 논의는 무의미합니다.

종국에는 OpenAI 가 어떻게 하냐는 큰 의미가 없을 겁니다. OpenAI는 오픈소스에 대해 우리와 같은 실수를 저지르고 있으며, 영원히 기술적 우위를 유지할 수 있을지도 불확실합니다. 오픈소스 대안이 그들의 입장을 바꾸지 않는 한 결국에는 오픈소스가 그들을 잠식할 수 있고 잠식할 것입니다. 이 점에서 적어도 우리가 먼저 움직일 수 있습니다.

로컬 AI가 변화시킬 미래

LLaMa 유출 사태는 로컬 AI라는 분야를 비가역적으로 변화시켰습니다. 글이 너무 길어져 담지 못한 양자화와 QLoRa등 학습 분야의 혁신은 누구나 만원 혹은 그 이하의 비용으로 개인 언어모델을 만들 수 있는 시대를 열었습니다.

그럼에도 누군가는 이렇게 질문할 수 있습니다.

과연 모든 사람이 로컬 AI를 설치하게 될까요?

제 답변은 이렇습니다.

네 그럴 것입니다! 마치 모든 사람이 Personal Computer를 갖게 되었듯 말입니다.

PC가 개발되기 전 컴퓨터는 조직 전체가 공유하는 거대한 중앙 컴퓨터에 개개인은 네트워크 끝단 입출력 단말기로 접속하는 형태였습니다. 누구도 이 거대하고 값비싼 물건을 집 안 책상 위에 올려놓을 거라 생각하지 않았죠.

그러나 컴퓨터가 단순한 계산기를 넘어 무한한 응용 가능성을 지녔다고 믿은 사람이 몇 명 있었습니다. 그들이 IBM과 Microsoft 그리고 Apple을 만들었습니다. 컴퓨터 이상으로 무한한 응용 가능성을 지닌 생성형 AI는 과연 거대 서버 안에만 설치될까요? 아니면 모든 사람의 디바이스에서 실행될까요.