local ai llm 모델 학습을 위한 dataset json 타입 만드는 방법
Local LLM(Llama 3, Gemma 2 등)을 직접 튜닝(Fine-tuning)하기 위해 데이터를 준비하시는군요! LLM 학습용 데이터셋은 단순히 정보를 나열하는 게 아니라, **AI가 학습할 '대화의 흐름'**을 정의하는 것이 핵심입니다. 현재 업계에서 가장 표준으로 쓰이는 3가지 JSON 형식 을 정리해 드릴게요. 1. 지시 이행형 (Instruction Format) 가장 일반적인 형식입니다. "질문(Instruction) - 맥락(Input) - 답변(Output)"의 구조를 가집니다. 사용처: 특정 작업(리뷰 요약, 코드 생성 등)을 학습시킬 때 구조: JSON [ { "instruction" : "고객의 리뷰를 분석하여 사장님의 답글 점수를 매겨주세요." , "input" : "리뷰: 와플 생크림이 너무 적어요. / 답글: 죄송합니다. 다음엔 듬뿍 드릴게요." , "output" : "점수: 85점. 사과와 개선 약속이 포함되어 있으나 구체적인 보상 언급이 부족함." }, { "instruction" : "오늘 날짜를 기준으로 마감일을 계산하세요." , "input" : "오늘: 2026-02-10, 기한: 3일 뒤" , "output" : "마감일은 2026-02-13입니다." } ] 2. 대화형 (ChatML / ShareGPT Format) 최근 Llama 3나 최신 모델들이 가장 선호하는 형식입니다. role (역할)과 content (내용)로 구분되어 실제 채팅처럼 학습합니다. 사용처: 챗봇의 말투나 대화 흐름을 학습시킬 때 구조: JSON [ { "conversations" : [ {...