라스 AI(Lars AI)
라스 AI(Lars AI)는 코딩과 에이전트에 특화된 파운데이션 모델로, 망분리·온프레미스 배포에 최적화했습니다.
라스 AI (Lars AI) 모델 개요
라스 AI(Lars AI)는 스퀘어라이트가 직접 개발하는 한국어 우선 파운데이션 모델 제품군으로, 엔비디아 H200 클러스터에서 한국어 특화 데이터를 추가 학습했습니다. 코딩과 에이전트에 특화돼 있으며, 모든 모델은 망분리·온프레미스 환경에 그대로 납품할 수 있도록 만들어졌습니다. 학습 레시피·벤치마크 등 모델 내부 상세는 2026년 9~10월 공개되는 모델 카드에서 다루며, 같은 시점에 경량 모델 1종을 오픈소스로 공개 예정입니다.
모델 선택하기
어떤 모델을 써야 할지 확실하지 않다면, 사내 개발팀의 코딩 보조에는 Lars-Coder-14B로 시작하는 것을 권합니다. 멀티스텝으로 스스로 계획하고 도구를 호출하는 자율 에이전트가 필요하다면 Lars-Coder-32B 이상으로 올라가세요. 모든 라스 AI 모델은 외부 클라우드 없이 망분리·온프레미스 환경에 그대로 배포할 수 있습니다.
| 이런 작업에 | 추천 모델 | 강점 |
|---|---|---|
| 폭넓은 지식·범용 추론 | Lars-Flag-235B | 방대한 지식과 범용 추론이 필요한 과제를 하나의 모델로 폭넓게 커버하는 최상위 플래그십입니다. 여러 부서·도메인을 아우르는 사내 어시스턴트나 지식 기반 업무에 적합합니다. |
| 최고 코드 성능 + 빠른 추론 | Lars-Coder-80B-A3B | 최고 수준의 코드 성능을 빠른 응답 속도로 제공합니다. MoE 구조 덕분에 대형 모델이면서도 추론이 가벼워, 한 대의 고성능 GPU 박스에서 팀 전체의 코딩·에이전트 워크로드를 감당합니다. |
| 자율 에이전트 (멀티스텝·메모리·툴 오케스트레이션) | Lars-Coder-32B | 여러 단계를 스스로 계획하고 도구를 호출하며 오류를 복구하는 자율 에이전트 작업을 안정적으로 끝까지 완수합니다. 긴 멀티스텝 워크플로와 툴 오케스트레이션이 필요한 업무 자동화의 핵심 모델입니다. |
| 코드 생성·수정 보조 | Lars-Coder-14B | 단일 GPU에서 가볍게 동작하는 일상 코딩 파트너입니다. 코드 생성·수정과 한국어 개발 문서 작업을 빠르고 경제적으로 처리해, 사내 개발팀이 부담 없이 도입할 수 있습니다. |
| 이미지·영상·문서 이해 | Lars-VL · Lars-OCR | 이미지·영상 이해는 Lars-VL이, 스캔 문서를 구조화된 마크다운으로 바꾸는 작업은 Lars-OCR이 담당합니다. 두 모델이 비전 스택을 공유해 멀티모달과 문서 파이프라인을 함께 도입하기 쉽습니다. |
| 코드베이스·사내문서 검색 (RAG) | Lars-Embed (+ Rerank) | 코드베이스와 사내 문서를 외부 클라우드 없이 검색합니다. dense+sparse 하이브리드 검색으로 한국어와 코드의 정확도를 함께 끌어올리며, on-prem RAG 레퍼런스 스택과 한 묶음으로 제공됩니다. |
| 채용·HR 편향검증 | Lars-Debias | 채용·HR 시나리오에서 모델의 편향을 측정·완화하고, 근거가 담긴 검증 리포트를 함께 제공합니다. 규제와 신뢰가 중요한 환경에서 의사결정의 공정성을 입증해야 할 때 적합합니다. |
| 엣지·온디바이스·라우팅 | 경량 · 엣지 라인 | 엣지·온디바이스(NPU)·라우팅처럼 가볍고 빠른 응답이 필요한 환경을 위한 소형 라인입니다. 이 중 한 모델은 2026년 9~10월 오픈소스로 공개될 예정입니다. |
배포 가이드 — 라스 AI는 고객 하드웨어에 맞춰 4-bit/FP8로 서빙합니다. RTX 4090(24GB)은 ~32B, RTX 6000 Blackwell(96GB)·DGX Spark(128GB)는 80B급, DGX Spark ×2·DGX Station은 235B까지 단일 박스로 커버합니다. 모델 + 검색기(Lars-Embed) + RAG 레퍼런스 스택을 GPU 서버와 함께 번들로 납품할 수 있습니다.
Related Research
스퀘어라이트 AI 연구팀은 한국어 특화 모델, 모델 파인튜닝, 편향 감지 등 파운데이션 모델 학습 전반에 걸친 역량을 연구로 입증해 왔습니다.

LLM이 생성한 응답의 성별 편향을 측정·완화하는 연구. Lars-Debias의 LIWC 기반 편향검증 방법론의 학술적 기반입니다.
논문 보기
대표적인 한국어 생성 모델 오픈소스 프로젝트. 한국어 파운데이션 모델을 만들어 온 트랙레코드를 보여줍니다.
저장소 보기
Gemma 2B를 한국어 뉴스 요약(추상 요약)에 파인튜닝한 공개 모델. 한국어 도메인 적응·파인튜닝 실무 역량을 보여주는 사례입니다.
모델 보기모델 라인업
용도(capability)별로 라인업을 정리했습니다. 비싼 베이스 모델 하나에서 디스틸·특화 파인튜닝으로 여러 파생 모델을 만드는 구조입니다.
코어 모델
코딩 · 에이전트 · 범용 플래그십 — 제품의 중심 축.
범용·지식 헤드라인. 폭넓은 지식과 범용 추론을 다룹니다.
고성능 에이전트 두뇌 + 코드 헤드라인. MoE 구조로 빠른 추론을 유지합니다.
자율 에이전트 두뇌. 멀티스텝 계획·툴 오케스트레이션·긴 컨텍스트 중심의 프리미엄 모델.
에이전트형 코딩 보급형 메인. 단일 GPU에서 동작하는 선행 baseline.
애드온 · 경량
멀티모달·문서, 검색·RAG·신뢰, 경량·엣지 라인. 1종을 2026년 9~10월 오픈소스로 공개합니다.
멀티모달 — 이미지 + 영상 + 텍스트 이해. 한국어 비전에 적응.
문서 front-door — 이미지·스캔 문서를 마크다운으로. 망분리 파싱.
RAG 검색기 — 코드·사내문서 임베딩. 한국어·코드 하이브리드 검색.
편향검증 HR 모델 — LIWC 기반 편향 측정·완화. (수요 시 확장)
경량 코더 · 툴·라우터·draft. 도입 funnel로 활용.
엣지·라우터/intent·온디바이스(NPU)용 초소형 모델.
엔터프라이즈 고객을 위한 라스 AI
고객의 AX(AI Transformation) 사업을 끝까지 완수하려면, 모델을 직접 만들어 본 역량이 필요합니다. 데이터 파이프라인 설계, 평가 체계 구축, 도메인 파인튜닝, 강화학습, 디스틸, 추론 최적화, 망분리 배포 — 파운데이션 모델을 만들며 길러지는 이 근육이 곧 고객 프로젝트를 성공으로 이끄는 실행력입니다. API를 호출만 해 본 팀과, 모델의 내부를 이해하고 다뤄 본 팀의 차이는 바로 이 지점에서 드러납니다.
도입 · 파트너십 문의
on-prem 도입, 파일럿, GPU 서버 번들, 투자·파트너십 논의를 환영합니다.
문의하기 · sales@squarelight.ai