Finetuning

OpenAI 기반 SFT + DPO 파인튜닝 서비스. 한국어 학습 데이터 그대로 지원하며, JSONL만 준비하시면 GPT-4.1 계열 모델 위에서 미세 조정해 드립니다.

OpenAI 파인튜닝 워크플로우한국어 학습 데이터 지원SFT → DPO 2단계 권장

FinetuningOpenAI SFT · DPO

OpenAI 기반 파인튜닝(Supervised + DPO)을 한국어 데이터 그대로 지원합니다. 엑셀만 준비해 주시면 학습용 JSONL 로 변환해 드리고, OpenAI 최신 모델 위에서 SFT 와 DPO 를 단계적으로 적용해 톤·문맥·선호 응답까지 맞춰 드립니다.

두 가지 학습 방식

OpenAI 는 SFT 와 DPO 를 모두 지원합니다. 단독으로도 가능하지만, 권장 워크플로우는 SFT 로 베이스라인을 잡은 뒤 DPO 로 선호도를 미세 조정하는 2단계 구성입니다.

STEP 1
Supervised Fine-Tuning (SFT)
지도학습 방식의 기본 파인튜닝. 입력 → 정답 응답을 예시로 모델이 어떤 패턴을 따라야 하는지 학습시킵니다. 톤·구조·도메인 용어를 잡는 데 적합합니다.
  • JSONL 의 messages 배열 (system/user/assistant)
  • 선호 응답의 일부분만으로도 좋은 출발점이 됨
  • DPO 직전에 베이스라인을 세우는 단계

지원 모델

gpt-4.1 familygpt-4.1-mini familygpt-4.1-nano family
STEP 2
Direct Preference Optimization (DPO)
동일 프롬프트에 대한 선호 응답(preferred)과 비선호 응답(non_preferred) 쌍을 학습시켜, 더 사람의 취향에 가까운 출력을 유도합니다. 요약 톤, 채팅 어조처럼 “정답이 모호한” 작업에 강력합니다.
  • 입력은 텍스트 only — 마지막 assistant 메시지가 비교 대상
  • beta(0~2) 하이퍼파라미터로 보수성/공격성 조절
  • SFT 결과 모델 위에서 적용했을 때 효과 극대화

지원 모델

gpt-4.1 familygpt-4.1-mini familygpt-4.1-nano family

데이터 형식 — JSONL

각 줄이 하나의 학습 예제입니다. SFT 는 messages 배열, DPO 는 input/preferred_output/non_preferred_output 셋트입니다. 한국어 그대로 사용 가능.

SFT

SFT — 한국어 멀티턴 대화 예제

ko-finetuning-yunhomaeng.jsonl 에서 추출 · 일부 컨텐츠 축약
DPO

DPO — 영어 선호 응답 예제

preference_dataset_filtered_10.jsonl 에서 추출 · 일부 축약

DPO

DPO — 한국어 선호 응답 예제

preference_dataset_filtered_10_kor.jsonl 에서 추출 · 일부 축약

DPO 잡 생성 (OpenAI SDK)

method.type = "dpo" 와 dpo.hyperparameters 만 지정하면 동일한 fine-tuning 잡 엔드포인트로 DPO 가 동작합니다.

beta 하이퍼파라미터
0~2 사이 부동소수점. 작을수록 새 선호도에 더 적극적으로 맞추고, 클수록 기존 동작을 보수적으로 유지합니다. auto (기본값) 으로 두면 OpenAI 가 자동 선택.

권장 2단계 워크플로우

1
SFT 로 베이스라인 정렬
선호 응답의 일부 (또는 전체) 로 supervised fine-tuning 을 먼저 돌려, 모델이 “정답 패턴” 을 익히게 합니다.
2
DPO 로 선호도 미세조정
SFT 체크포인트를 시작점으로 잡고, preferred / non_preferred 쌍을 사용해 DPO 학습을 적용합니다. beta 값으로 튜닝 강도를 조절.
3
안전성 검사 통과 확인
OpenAI 가 13개 안전성 카테고리에서 모델 동작을 검증합니다. 통과해야 배포 가능 — 실패 시 moderation_checks 이벤트로 어느 카테고리가 컷되었는지 확인하세요.

안전성 검사 — 13개 카테고리

파인튜닝 잡 완료 시 OpenAI 가 13개 카테고리에서 모델 동작을 평가합니다. 임계치를 넘으면 배포가 차단되며, moderation_checks 이벤트로 실패 카테고리를 확인할 수 있습니다.

카테고리설명
advice정책에 위반되는 조언/가이드.
harassment/threatening폭력 또는 심각한 위해를 동반한 괴롭힘.
hate인종·성별·민족·종교·국적 등 보호 대상에 대한 혐오.
hate/threatening폭력을 동반한 보호 대상 혐오 콘텐츠.
highly-sensitive정책 위반 수준의 매우 민감한 데이터.
illicit불법 행위에 대한 조언/지시 (예: "shoplift 방법").
propaganda정책 위반 이념에 대한 찬양/지원.
self-harm/instructions자해를 권하거나 방법을 알려주는 콘텐츠.
self-harm/intent발화자가 자해 의도를 표현하는 콘텐츠.
sensitive정책 위반 민감 데이터.
sexual/minors미성년자가 포함된 성적 콘텐츠.
sexual성적 흥분을 의도한 콘텐츠 (성교육 제외).
violence죽음·폭력·신체 상해 묘사.

실패 시 OpenAI fine-tuning events 엔드포인트의 moderation_checks 이벤트를 조회해 어떤 카테고리가 컷되었는지 확인할 수 있습니다.

도입 문의

학습 데이터 정제부터 SFT/DPO 잡 운영, 안전성 평가 통과까지 한국어 워크플로우 그대로 지원합니다.

영업팀 문의하기 · sales@squarelight.ai