Lumen 사이드 0편 – 시리즈 인덱스, 처음 펴는 분의 입구
Lumen LLM 추론 컴파일러 6주 사이드 시리즈의 입구. 1~10편 안내, 도시 건축 비유 매핑 표, 어디부터 읽어야 하는지 추천 순서. 처음 시리즈 펴는 분에게 도움 되는 정리.
Lumen LLM 추론 컴파일러 6주 사이드 시리즈의 입구. 1~10편 안내, 도시 건축 비유 매핑 표, 어디부터 읽어야 하는지 추천 순서. 처음 시리즈 펴는 분에게 도움 되는 정리.
사이드 마지막 편. Lumen v0.1.0(첫 토큰 ‘안녕’)에서 v0.5.0(release-tagged)까지의 6주 작업을 시간 순으로 정리. 1~2주차 인프라, 3~4주차 큰 가속, 5~6주차 부정 누적과 진단. 단일 스레드 10.3배 가속, ggml 대비 +13% 빠른 의외 결과.
사이드 6주 동안 가설 11번 세웠는데 그중 8번이 측정으로 부정. 그 패턴이 어떤 모양이고 왜 그게 사이드의 본질인지. 50줄 마이크로벤치가 1주일 디버깅을 1시간으로 줄인 사례, prefill batching이 2.9배 회귀였던 충격까지.
8 코어 CPU에서 8 스레드 가속이 8배가 아닌 1.5배 정도밖에 안 나오는 이유. 메모리 대역폭이 코어 수와 무관한 하드웨어 한계라서. 한 우물에서 8명이 물 긷기 비유로 풀어봅니다. atomic counter 패턴이 mutex보다 빠른 이유까지.
1편에서 ‘도시 24개 동’으로 풀었던 그 한 동의 내부 동작. RMSNorm, Q/K/V, RoPE, Attention, FFN의 8단계가 어떻게 흐르는지. attention은 칵테일 파티에서 한 사람 말 듣기로 잠깐 풀고 다시 건축으로 돌아옵니다.
모델 weight를 32비트 float에서 8비트 정수로 압축하면 메모리 4배 줄어드는데 답이 거의 똑같은 게 어떻게 가능한지. Q8과 Q4의 차이, fused matmul, VNNI 명령어까지. mm 단위 청사진을 cm 단위로 단순화해도 시공 결과는 같다는 비유로 풀어봅니다.
SIMD가 정확히 뭐고 매트멀이 빨라지는 진짜 원리. AVX2, AVX-512, FMA, 4-accumulator 패턴까지. 도시 자재 운송을 1차선 도로에서 8차선 도로로 바꾸는 비유로 풀어봅니다. AMD Zen 4에서 AVX-512가 -4.5% 회귀였던 일화도 본격적으로.
JIT(Just-In-Time) 컴파일이 정확히 어떤 일인지. 프로그램 실행 중에 어셈블리를 만들어 메모리에 쓰고 즉시 실행하는 게 어떻게 가능한지. LLM 추론에 JIT이 왜 잘 맞는지를 사전 계획 시공 vs 현장 시공 비유로 풀어봅니다.
DSL, AST, IR, 코드 생성 – 컴파일러 책 첫 장에 나오는 추상적인 용어들이 사실은 건축가가 청사진 만드는 4단계와 정확히 같아요. 손 스케치 → 평면도 → 시공 도면 → 작업 지시서의 흐름으로 풀어봅니다.
llama.cpp(ggml)라는 5년+ 누적된 표준 LLM 추론 도구가 이미 있는데도 6주짜리 사이드로 처음부터 짠 이유. 책 100번 vs 직접 짜기 1번이 어떻게 다른지, 9개월 흐지부지 사이드들이 가르쳐 준 것까지.