없는데 어떻게 해요? 합성 데이터로 만드는 (도메인 특화) 언어모델
13:20-14:00
13:20-14:00
컨퍼런스홀 A
컨퍼런스홀 A
언어모델은 필요한데 데이터가 없다면, 우리는 어떻게 해야 할까요? 언어모델이 사회 전반에 빠르게 확산되면서, 실제 데이터가 부족하거나 민감하여 활용하기 어려운 상황이 점점 더 많아지고 있습니다. 해례 랩(HAE-RAE Lab) 은 이러한 한계를 넘어, 수학·과학·언어·암호학·퍼즐·한국 문화 등 다양한 분야에서 원천 데이터 수집과 합성데이터(Synthetic Data) 생성을 결합해 언어모델을 학습하고 평가해왔습니다. 이번 세미나에서는 데이터가 부족한 환경에서 합성데이터를 활용해 도메인 특화 언어모델을 개발하고 성능을 검증하는 방법, 그리고 그 과정에서 얻은 실제 인사이트를 공유합니다. 데이터가 없어도 가능한 언어모델 연구의 새로운 방향을 함께 탐색해보세요.
언어모델은 필요한데 데이터가 없다면, 우리는 어떻게 해야 할까요? 언어모델이 사회 전반에 빠르게 확산되면서, 실제 데이터가 부족하거나 민감하여 활용하기 어려운 상황이 점점 더 많아지고 있습니다. 해례 랩(HAE-RAE Lab) 은 이러한 한계를 넘어, 수학·과학·언어·암호학·퍼즐·한국 문화 등 다양한 분야에서 원천 데이터 수집과 합성데이터(Synthetic Data) 생성을 결합해 언어모델을 학습하고 평가해왔습니다. 이번 세미나에서는 데이터가 부족한 환경에서 합성데이터를 활용해 도메인 특화 언어모델을 개발하고 성능을 검증하는 방법, 그리고 그 과정에서 얻은 실제 인사이트를 공유합니다. 데이터가 없어도 가능한 언어모델 연구의 새로운 방향을 함께 탐색해보세요.
합성 데이터
언어 모델
도메인 특화
손규진
연사
OneLineAI CDO | 해례랩 랩장
OneLineAI CDO | 해례랩 랩장
손규진님은 한국어 자연어 처리를 비롯해 LLM의 평가와 추론 (Reasoning) 분야를 연구하는 젊은 연구자입니다. OneLineAI의 공동 창업자 겸 AI 연구자로서 HAE-RAE Bench, KMMLU, KMMLU-Pro 등 국내 주요 벤치마크 구축을 주도했으며, 오픈소스 연구 그룹인 "해례"를 이끌고 있습니다. EMNLP, NAACL, ACL, ICML 등 주요 학회에 다수의 논문을 발표했으며, FastCampus, SSAFY, 코드잇 등 다양한 기관에서 강의와 세미나를 하는 등 지식 공유에도 힘쓰고 있습니다.
손규진님은 한국어 자연어 처리를 비롯해 LLM의 평가와 추론 (Reasoning) 분야를 연구하는 젊은 연구자입니다. OneLineAI의 공동 창업자 겸 AI 연구자로서 HAE-RAE Bench, KMMLU, KMMLU-Pro 등 국내 주요 벤치마크 구축을 주도했으며, 오픈소스 연구 그룹인 "해례"를 이끌고 있습니다. EMNLP, NAACL, ACL, ICML 등 주요 학회에 다수의 논문을 발표했으며, FastCampus, SSAFY, 코드잇 등 다양한 기관에서 강의와 세미나를 하는 등 지식 공유에도 힘쓰고 있습니다.

글로벌 AI 기술의 가장 앞선 이야기
모두콘2025 공유하기

글로벌 AI 기술의 가장 앞선 이야기
모두콘2025 공유하기
