OpenAI가 새로운 추론 모델인 GPT-o3를 공개.
현재 이 모델에 대해 알려진 정보는 많지 않지만, 함께 발표된 연구에서는 LLM의 안전 규격(safety spec)을 따르도록 훈련시키는 기술 중 하나인 Deliberative Alignment 소개되었다.
→ Safety Policy를 모델에게 직접 가르치고, 모델에게 생각할 시간을 줘서 응답하기 전에 이러한 규격에 대해 명시적으로 추론하도록 훈련
Deliberative Alignment: Reasoning Enables Safer Language Models
Deliberative Alignment: Reasoning Enables Safer Language Models
Deliberative Alignment는 기존의 안전성 훈련 방식과 달리, 모델이 안전 규격을 직접 학습하고, 응답을 생성하기 전에 이를 기반으로 추론하도록 훈련하는 기법이다. 이 방식은 암묵적이고 패턴 기반 학습의 한계를 극복하며, 데이터 효율성과 일반화 능력을 향상시켜 새로운 상황이나 적대적 공격(adversarial attacks)에 더욱 잘 대처할 수 있도록 설계되었다.
기존 방법의 한계와 동기
Deliberative Alignment는 기존 훈련에서 다음 두 가지 주요 한계를 해결하기 위해 고안되었다.