Deliberative Alignment

OpenAI가 새로운 추론 모델인 GPT-o3를 공개.

현재 이 모델에 대해 알려진 정보는 많지 않지만, 함께 발표된 연구에서는 LLM의 안전 규격(safety spec)을 따르도록 훈련시키는 기술 중 하나인 Deliberative Alignment 소개되었다.

→ Safety Policy를 모델에게 직접 가르치고, 모델에게 생각할 시간을 줘서 응답하기 전에 이러한 규격에 대해 명시적으로 추론하도록 훈련

AI Safety의 분야

Robustness: 악의적인 공격에 대한 방어
Monitoring
Alignment: AI의 목적이 인류의 가치에 맞도록 조정하는 것

Deliberative Alignment

Deliberative Alignment: Reasoning Enables Safer Language Models

노란색: 유저가 모델을 속이려는 것을 알아챔
초록색: OpenAI의 Safety Policy

Deliberative Alignment는 기존의 안전성 훈련 방식과 달리, 모델이 안전 규격을 직접 학습하고, 응답을 생성하기 전에 이를 기반으로 추론하도록 훈련하는 기법이다. 이 방식은 암묵적이고 패턴 기반 학습의 한계를 극복하며, 데이터 효율성과 일반화 능력을 향상시켜 새로운 상황이나 적대적 공격(adversarial attacks)에 더욱 잘 대처할 수 있도록 설계되었다.

기존 방법의 한계와 동기

Deliberative Alignment는 기존 훈련에서 다음 두 가지 주요 한계를 해결하기 위해 고안되었다.

Lack of Deliberation: 기존 LLM은 사용자 요청에 즉각적으로 응답하도록 설계되어 있어, 복잡한 상황에서 안전성을 신중하게 고려하는 능력이 제한된다.
Implicit Learning: 기존 안전성 훈련은 광범위한 라벨링 데이터셋에서 안전 기준을 간접적으로 추론하는 방식에 의존합니다. 이는 데이터 효율성이 낮고, 새로운 상황이나 적대적 프롬프트에 효과적으로 일반화하지 못한다.

AI Safety의 분야

Deliberative Alignment

Chain-of-Thought(CoT) 통합