기본 콘텐츠로 건너뛰기

내 책상 위에서 GPT-4급 성능을? Qwen 3.5 로컬 구동 도전기

  처음 397B 파라미터 모델이 로컬 환경에서 돌아간다는 소식을 접했을 때, 솔직히 반신반의했습니다. 단순히 수치만 높은 게 아닐까 싶어 퇴근길에 24GB VRAM을 장착한 제 메인 PC에 바로 Qwen 3.5 9B 모델을 올려봤는데, 그 속도와 답변 품질을 보고 화면 앞에서 잠시 멍하니 앉아있었습니다. 그동안 제가 클라우드 API에 썼던 비용과 시간이 조금 허무하게 느껴질 정도더군요. 오늘은 로컬 LLM이 단순한 장난감을 넘어 실무의 영역으로 들어온 지금, 우리가 무엇을 준비해야 하는지 제 시행착오를 담아 정리해 보려 합니다. MoE와 Dense 모델, 무엇을 고를까? Qwen 3.5는 모델 라인업이 방대해서 처음엔 무엇부터 써야 할지 막막할 수 있습니다. 하지만 하드웨어 제약 내에서 최적의 효율을 내는 구조를 이해하면 선택지는 명확해집니다. 많은 분이 397B 모델의 웅장한 성능에만 집중하지만, 실질적으로 우리 PC에서 생명력 있게 돌아가는 건 MoE(Mixture of Experts) 모델들입니다. 저는 처음에 무리하게 35B-A3B 모델을 돌려보려다 램 부족으로 시스템이 멈추는 바람에 꽤 고생했습니다. 핵심은 '활성화 파라미터'인데, 35B 전체 크기라도 실제 연산은 3B만 사용하니 놀라울 정도로 가벼웠죠. 무조건 큰 모델이 최고라는 생각은 버려야 합니다. 내 하드웨어에서 초당 토큰 생성 속도가 10 이상 유지되는 모델이 가장 실용적인 모델입니다. 현장에서 체감한 양자화와 하드웨어의 함정 양자화는 메모리를 절약하는 마법이지만, 그 종류가 너무 많아 선택 장애를 유발합니다. 수치만 보고 결정하면 나중에 성능 저하 때문에 곤란해질 수 있습니다. 저도 처음엔 무조건 제일 작은 2비트 버전으로 모든 걸 해결하려 했습니다. 하지만 막상 코딩 작업에 투입해보니 엉뚱한 라이브러리를 불러오거나 문법을 틀리는 빈도가 확연히 높더군요. 4비트 양자화 모델이 용량 대비 품질 유지 측면에서 압도적입니다. 또한, GPU 오프로딩을 할 때도 주의가 필요합니다. ...

내 책상 위에서 GPT-4급 성능을? Qwen 3.5 로컬 구동 도전기

 썸네일

처음 397B 파라미터 모델이 로컬 환경에서 돌아간다는 소식을 접했을 때, 솔직히 반신반의했습니다. 단순히 수치만 높은 게 아닐까 싶어 퇴근길에 24GB VRAM을 장착한 제 메인 PC에 바로 Qwen 3.5 9B 모델을 올려봤는데, 그 속도와 답변 품질을 보고 화면 앞에서 잠시 멍하니 앉아있었습니다. 그동안 제가 클라우드 API에 썼던 비용과 시간이 조금 허무하게 느껴질 정도더군요. 오늘은 로컬 LLM이 단순한 장난감을 넘어 실무의 영역으로 들어온 지금, 우리가 무엇을 준비해야 하는지 제 시행착오를 담아 정리해 보려 합니다.


Qwen 3.5 로컬 설치 화면

MoE와 Dense 모델, 무엇을 고를까?

Qwen 3.5는 모델 라인업이 방대해서 처음엔 무엇부터 써야 할지 막막할 수 있습니다. 하지만 하드웨어 제약 내에서 최적의 효율을 내는 구조를 이해하면 선택지는 명확해집니다.

많은 분이 397B 모델의 웅장한 성능에만 집중하지만, 실질적으로 우리 PC에서 생명력 있게 돌아가는 건 MoE(Mixture of Experts) 모델들입니다. 저는 처음에 무리하게 35B-A3B 모델을 돌려보려다 램 부족으로 시스템이 멈추는 바람에 꽤 고생했습니다. 핵심은 '활성화 파라미터'인데, 35B 전체 크기라도 실제 연산은 3B만 사용하니 놀라울 정도로 가벼웠죠.


무조건 큰 모델이 최고라는 생각은 버려야 합니다. 내 하드웨어에서 초당 토큰 생성 속도가 10 이상 유지되는 모델이 가장 실용적인 모델입니다.

PC 그래픽카드 성능 비교

현장에서 체감한 양자화와 하드웨어의 함정

양자화는 메모리를 절약하는 마법이지만, 그 종류가 너무 많아 선택 장애를 유발합니다. 수치만 보고 결정하면 나중에 성능 저하 때문에 곤란해질 수 있습니다.

저도 처음엔 무조건 제일 작은 2비트 버전으로 모든 걸 해결하려 했습니다. 하지만 막상 코딩 작업에 투입해보니 엉뚱한 라이브러리를 불러오거나 문법을 틀리는 빈도가 확연히 높더군요. 4비트 양자화 모델이 용량 대비 품질 유지 측면에서 압도적입니다.


또한, GPU 오프로딩을 할 때도 주의가 필요합니다. 4GB VRAM을 가진 오래된 그래픽카드로 모든 레이어를 넘기려다 보니 오류가 계속 발생했는데, llama.cpp 설정을 조정해 조금씩 오프로딩 수치를 높여가며 내 장비가 버티는 지점을 찾는 과정이 반드시 필요합니다. 이 '줄타기'를 즐길 수 있어야 진정한 로컬 LLM의 재미를 알게 되더군요.


다양한 LLM 모델 비교표

실무 활용을 위한 하이브리드 워크플로우

로컬 LLM이 강력하지만 환각 현상은 여전히 숙제입니다. 저는 로컬 모델의 속도와 유료 서비스의 정확성을 섞는 방식을 택했습니다.

밤새도록 에이전트 작업을 돌려 초안을 만들 때는 Qwen 3.5를 활용하고, 최종 검수나 복잡한 로직 확인은 Claude 3.5나 GPT-4 API를 거치게 하는 구조입니다. 처음엔 로컬에서 모든 걸 끝내고 싶었지만, 결국 품질과 안정성이라는 타협점을 찾다 보니 이렇게 되었네요. 굳이 모든 걸 하나로 해결하려다 스트레스받기보다, 적절한 도구를 조합하는 게 가장 현명한 실무자의 자세라 생각합니다.


AI 코딩 효율성 개념도

자주 묻는 질문(FAQ) ❓

Q. Ollama로는 사용할 수 없나요?

현재로서는 Ollama에서 Qwen 3.5의 멀티모달 기능 등을 제대로 쓰기 어렵습니다. 저도 처음엔 당연히 되겠지 싶어 시도했다가 며칠을 헤맸는데요. 지금은 llama.cpp 호환 백엔드를 직접 사용하는 것이 가장 속 편한 방법입니다. 생태계가 정리될 때까지 조금 기다리는 인내심이 필요합니다.

Q.thinking 모드는 꼭 켜야 하나요?

복잡한 추론이 필요한 작업이 아니라면 기본(non-thinking) 모드를 추천합니다. thinking 모드를 켜면 답변 품질은 올라가지만 속도가 현저히 떨어지거든요. 일상적인 대화나 간단한 코드 수정에는 굳이 고성능 모드를 고집할 이유가 없습니다.


맺으며

로컬 LLM의 세계는 매일이 새롭습니다. 어제의 최적 설정이 오늘은 구식이 되곤 하죠. 복잡한 매트릭스에 머리가 아플 때도 있지만, 클라우드의 제약 없이 온전히 내 하드웨어의 한계까지 모델을 몰아붙이는 경험은 그 무엇과도 바꿀 수 없습니다. Qwen 3.5는 우리가 상상만 하던 그 시대를 한 걸음 더 현실로 가져왔습니다. 당장 내 PC에 모델을 올리고, 터미널에 찍히는 토큰 속도를 지켜보는 것부터 시작해보세요.


본 게시물은 기술적 정보 공유를 목적으로 작성되었습니다. 특정 하드웨어의 성능이나 모델의 정확도는 사용자의 환경에 따라 다를 수 있으며, 중요한 데이터 작업 시에는 항상 검증 과정을 거치시길 권장합니다.


댓글

이 블로그의 인기 게시물

알파고의 진짜 유산: 바둑을 넘어 신약개발의 미래를 보다

  기억하시나요? 10년 전, 구글 딥마인드의 알파고가 바둑판 위에서 인간을 상대로 승리를 거뒀던 그 날의 충격을 말입니다. 당시 저는 사무실 모니터 앞에 멍하니 앉아 그 '37번째 수'를 보며 전율했던 기억이 납니다. 그건 단순한 게임의 승리가 아니었습니다. 기계가 인간의 직관이라는 영역을 어떻게 넘어서는지, 그 서늘하면서도 경이로운 전환점을 목격했으니까요. 하지만 알파고는 그저 시작에 불과했습니다. 알파고가 생물학 연구실에 가져온 나비효과 알파고의 핵심은 승리가 아니라, 미지의 문제를 푸는 창의적 방식에 있었습니다. 그 흐름은 이제 단백질 구조를 해석하고 신약을 설계하는 과학계의 거대한 혁명으로 이어졌습니다. 현업에서 연구 데이터를 다루다 보면, 가장 큰 벽은 언제나 복잡성입니다. 단백질 구조 하나를 밝히는 데 몇 년씩 걸리던 시절이 있었습니다. 하지만 구글 딥마인드의 푸시미트 콜리 부사장의 인터뷰를 보며 느낀 점은, AI가 이제는 예측을 넘어선 '설계자'가 되었다는 사실입니다. 알파폴드(AlphaFold)는 이미 330만 명이 넘는 연구자들의 일상이 되었습니다. 제 주변의 생물학자 동료들도 이제는 실험실에 들어가기 전, AI가 예측한 구조를 바탕으로 가설을 세우는 것을 당연하게 여깁니다. 알파고 때 우리가 봤던 그 '창의적인 수'들이 생명 현상을 읽는 언어로 번역된 셈입니다. 인공지능이 인간을 대체하는 것이 아니라, 인간의 질문 수준을 한 단계 높여주고 있다는 점이 중요합니다. 예측이 쉬워지니 연구자들은 더 깊은 과학적 난제를 고민하게 되었습니다. 유전체 해석과 알고리즘의 최적화 AlphaMissense와 같은 모델은 단순히 데이터를 나열하지 않습니다. DNA 변이가 생명체에 미치는 영향을 판별하며 유전체 연구의 새로운 지평을 열고 있습니다. 데이터를 다루는 사람으로서 가장 흥미로웠던 것은 AlphaEvolve의 성과입니다. 사실 알고리즘을 최적화한다는 건 지루하고 반복적인 작업이거든요. 하지만 AI가 스...

엑셀 함수 없이 챗GPT로 보고서 끝내는 법

  오후 4시, 팀장님이 갑자기 지난달 매출 데이터를 기반으로 품목별 성장률 분석 보고서를 가져오라고 했을 때의 그 아찔함, 다들 한 번쯤 겪어보셨을 겁니다. 익숙하지 않은 VLOOKUP 수식이 오류를 뱉어낼 때마다 식은땀이 흐르던 기억이 생생합니다. 저 역시 몇 년 전까지만 해도 엑셀 시트 안에서 며칠을 씨름하며 꼬인 수식을 푸느라 야근을 밥 먹듯 했습니다. 하지만 최근 데이터를 다루는 방식 자체가 바뀌면서 그 고생스러운 작업들이 프롬프트 한 줄로 해결되는 시대를 살게 되었습니다. 수식 지옥에서 탈출하는 바이브 엑셀 복잡한 함수를 외우는 대신, 챗GPT에게 명확한 '목적'을 말하는 것만으로도 데이터의 구조를 완전히 재편할 수 있습니다. 엑셀을 켤 때마다 우리가 느끼는 피로감은 대부분 수식 자체보다 '어떻게 계산할지'를 고민하는 과정에서 옵니다. 사실 컴퓨터는 계산을 잘하지만, 사람은 '의도'를 정의하는 데 능숙하죠. 저는 작년 하반기에 고객 구매 데이터를 분석하며 엑셀 함수를 완전히 배제하는 실험을 했습니다. raw 데이터를 챗GPT에 던져주고 "최근 3개월간 재구매율이 높은 상위 10개 품목을 뽑아줘"라고 말했더니, 엑셀에서 피벗 테이블을 세 번 이상 돌려야 나올 결과가 5초 만에 정리되더군요. 처음에는 반신반의했습니다. 데이터가 꼬이면 어쩌나 하는 불안감에 수식으로 검증을 병행했죠. 그런데 의외로 결과값의 정확도가 매우 높았습니다. 오히려 사람이 직접 수식을 입력할 때 발생하는 오타나 범위 지정 실수가 더 잦다는 점을 깨달았습니다. 이제는 데이터의 의미를 파악하는 데 에너지를 쓰지, 수식 괄호가 맞는지 확인하는 데 시간을 쓰지 않습니다. 실무에서 바로 쓰는 프롬프트 활용법 데이터의 성격을 정의하고 단계별 분석을 요청하면, 단순히 수치를 나열하는 것을 넘어 통찰력 있는 요약 보고서가 탄생합니다. 데이터를 분석할 때 흔히 저지르는 실수는 챗GPT에게 너무 광범위한 요청을 하는 것입니다. ...

생성형 AI로 경제 뉴스 요약 뉴스레터 직접 만들어본 후기

  처음 생성형 AI를 활용해 나만의 뉴스레터를 만들겠다고 다짐했을 때, 제 머릿속엔 거창한 자동화 시스템부터 떠올랐습니다. 하지만 실제 시작은 아주 사소한 불편함 때문이었죠. 매일 쏟아지는 경제 기사 헤드라인만 훑다가 하루가 다 가버리는 느낌, 다들 한 번쯤 겪어보셨을 겁니다. 2년 전쯤, 1시간짜리 경제 영상을 요약하지 못해 출근길에 쩔쩔매던 제 모습이 생각나서 이번엔 제대로 정리를 해보기로 마음먹었습니다. 내가 직접 겪은 AI 뉴스 요약의 함정 단순히 요약만 시키면 AI는 겉핥기식 답변만 내놓습니다. 기사의 맥락을 살리고 사실 관계를 따지기 위해서는 질문의 가이드라인, 즉 프롬프트가 필수적입니다. 처음에는 단순히 "오늘 경제 뉴스 요약해줘"라고만 입력했습니다. 그랬더니 매일 비슷비슷한 헤드라인만 읊어주더군요. 3개월 정도 지나서야 제가 뭘 잘못하고 있는지 깨달았습니다. AI는 제가 입력한 조건만큼만 일한다는 사실을요. 실패 사례를 하나 말씀드리자면, 특정 기사의 핵심을 파악하려다 AI가 만든 '가짜 사실'을 그대로 믿고 투자 결정을 내릴 뻔한 적이 있습니다. 기사 본문을 수정하지 말고 핵심만 추출하라고 지시했어야 했는데, 포괄적으로 질문하니 AI가 내용을 지어내서 '환각(Hallucination)'을 만든 것이죠. 그 뒤로 저는 기사 링크를 넣을 때 항상 '본문 내용을 변경하지 말고 사실 위주로 정리할 것'이라는 제약 조건을 추가했습니다. 나만의 뉴스레터, 프롬프트로 가이드라인 만들기 프롬프트는 AI라는 비서에게 내리는 업무 매뉴얼입니다. 검증되지 않은 정보는 '확인 필요'라고 표시하게 만드는 것만으로도 뉴스레터의 신뢰도가 크게 올라갑니다. 아침에 눈뜨자마자 "오늘 뉴스"라고 한마디 던지면 제 입맛에 맞는 결과가 나오도록 환경을 설정했습니다. 핵심은 '검증'입니다. 저는 모든 답변에 기사 발생 날짜와 출처 링크를 명시하도록 고정 설정을 해두었습니다....