AI바라기의 인공지능
LLM : 논문 리뷰 : OpenAI o1 System Card 본문
1 Introduction
o1 model 시리즈는 chain of thought를 사용해 reasoning하도록 large-scale reinforcement learning으로 trained되었습니다. 이러한 advanced reasoning 능력은 models의 안전성과 견고성을 향상시키는 새로운 방법을 제공합니다. 특히, deliberative alignment을 통해 잠재적으로 안전하지 않은 프롬프트에 응답할 때, 우리 models는 컨텍스트에 있는 안전 정책에 대해 reasoning 할 수 있습니다.
이는 불법적인 조언 생성, 고정관념에 사로잡힌 응답 선택, 알려진 jailbreaks에 굴복하는 것과 같은 위험에 대한 특정 벤치마크에서 state-of-the-art 성능으로 이어집니다. 응답하기 전에 chain of thought를 포함하도록 models를 training하는 것은 상당한 이점을 가져올 가능성이 있는 반면, 높아진 지능에서 비롯되는 잠재적 위험도 증가시킵니다. 우리의 결과는 강력한 alignment methods를 구축하고, 그 효능을 광범위하게 스트레스 테스트하고, 세심한 위험 관리 프로토콜을 유지해야 할 필요성을 강조합니다. 이 보고서는 안전성 평가, 외부 red teaming 및 Preparedness Framework 평가를 포함하여 OpenAI o1 및 OpenAI o1-mini models에 대해 수행된 안전 작업을 간략하게 설명합니다.
2 Model data and training
o1 large language model 제품군은 complex reasoning을 수행하기 위해 reinforcement learning으로 trained 되었습니다. o1은 응답하기 전에 생각합니다. 사용자에게 응답하기 전에 긴 chain of thought를 생성할 수 있습니다. OpenAI o1은 이 시리즈의 다음 model (이전에는 OpenAI o1-preview)이며, OpenAI o1-mini는 코딩에 특히 효과적인 이 model의 더 빠른 버전입니다. training을 통해 models는 자신의 사고 과정을 개선하고, 다양한 전략을 시도하고, 자신의 실수를 인식하는 법을 배웁니다. reasoning을 통해 o1 models는 우리가 설정한 특정 지침과 model 정책을 따를 수 있으므로, 안전 기대치에 따라 행동하는 데 도움이 됩니다. 즉, 안전하지 않거나 부적절한 콘텐츠 생성을 피하기 위해, 도움이 되는 답변을 제공하고 안전 규칙을 우회하려는 시도에 더 잘 저항할 수 있습니다.
두 models는 공개적으로 사용 가능한 데이터, 파트너십을 통해 액세스한 독점 데이터, 사내에서 개발된 맞춤형 datasets의 혼합을 포함한 다양한 datasets에서 pre-trained 되었으며, 이는 models의 강력한 reasoning 및 대화 능력에 기여합니다. 선별된 공개 데이터: 두 models는 웹 데이터 및 open-source datasets를 포함한 다양한 공개적으로 사용 가능한 datasets에서 trained 되었습니다. 주요 구성 요소에는 reasoning 데이터 및 과학 문헌이 포함됩니다. 이를 통해 models는 일반적인 지식과 기술적인 주제에 정통하여 complex reasoning 작업을 수행하는 능력을 향상시킵니다. 데이터 파트너십을 통한 독점 데이터: o1 및 o1-mini의 기능을 더욱 향상시키기 위해, 가치가 높은 비공개 datasets에 액세스하기 위한 파트너십을 맺었습니다. 이러한 독점 데이터 소스에는 유료 콘텐츠, 전문 아카이브 및 산업별 지식과 사용 사례에 대한 더 깊은 통찰력을 제공하는 기타 도메인 특정 datasets가 포함됩니다. 데이터 필터링 및 개선: 데이터 품질을 유지하고 잠재적 위험을 완화하기 위해 당사의 데이터 처리 파이프라인에는 엄격한 필터링이 포함됩니다. 우리는 training 데이터에서 개인 정보를 줄이기 위해 고급 데이터 필터링 프로세스를 사용합니다. 또한 Moderation API와 안전 분류기를 조합하여 CSAM과 같은 명시적인 자료를 포함하여 유해하거나 민감한 콘텐츠의 사용을 방지합니다.
2 Model Data and Training 정리 노트
o1 Large Language Model 제품군 특징
- Reinforcement Learning으로 훈련되어 Complex Reasoning 수행 가능
- 응답 전 Chain of Thought 생성 (긴 사고 과정을 거침)
- OpenAI o1: 이 시리즈의 차세대 모델 (이전 OpenAI o1-preview)
- OpenAI o1-mini: 코딩에 특화된 더 빠른 버전
Training을 통해 Models가 배우는 것
- 사고 과정 개선
- 다양한 전략 시도
- 실수 인식
- Reasoning을 통해 설정된 지침 및 모델 정책 준수 -> 안전 기대치 부합
- 도움이 되는 답변 제공 능력 향상
- 안전 규칙 우회 시도 저항력 강화
- 안전하지 않거나 부적절한 콘텐츠 생성 방지
Pre-trained Datasets
- 공개 데이터, 독점 데이터, 자체 개발 데이터 등 다양한 데이터셋 활용 -> 강력한 Reasoning 및 대화 능력 확보
데이터 종류
- 공개 데이터 (Select Public Data)
- 웹 데이터, Open-source 데이터셋
- Reasoning 데이터, 과학 문헌 포함
- 일반 지식 및 기술 주제에 대한 이해도 향상 -> Complex Reasoning 능력 강화
- 데이터 파트너십을 통한 독점 데이터 (Proprietary Data from Data Partnerships)
- 비공개 고가치 데이터셋 접근을 위한 파트너십 체결
- 유료 콘텐츠, 전문 아카이브, 도메인 특화 데이터셋 포함
- 산업별 지식 및 사용 사례에 대한 심층적 이해 제공
데이터 필터링 및 개선 (Data Filtering and Refinement)
- 엄격한 데이터 처리 파이프라인으로 데이터 품질 유지 및 위험 완화
- 고급 필터링으로 개인 정보 제거
- Moderation API 및 안전 분류기 활용 -> 유해/민감 콘텐츠(CSAM 등) 사용 방지
1. 모델 훈련
- 강화 학습 기반 훈련: o1 모델은 대규모 강화 학습(RL)을 통해 Chain of Thought(사고의 사슬)를 활용한 복잡한 추론 작업을 수행하도록 학습되었습니다.
- 다양한 데이터 소스 사용:
- 공개 데이터: 웹, 오픈소스 데이터셋, 과학 논문 등이 포함됨.
- 독점 데이터: 비공개 데이터와 산업별 데이터를 통해 모델의 도메인 지식 향상.
- 데이터 필터링: 민감하거나 유해한 콘텐츠를 걸러내기 위한 엄격한 데이터 처리.
2. 모델 안전성 강화
- Chain of Thought (CoT):
- 응답 전 사고 과정을 명시적으로 생성, 이를 통해 모델이 안전 정책을 더 잘 적용하도록 함.
- Deliberative Alignment:
- 모델이 안전 규정을 검토하고 충족 여부를 추론할 수 있도록 학습.
- 안전한 거절 응답(Refusal Response)을 효과적으로 학습.
3. 안전성 테스트
- 내부 및 외부 평가:
- 사내 테스트 및 외부 전문가 Red Teaming을 통해 모델의 안전성 및 잠재적 위험 요소를 평가.
- 여러 벤치마크(예: 무해성 평가, "Jailbreak" 방어, 편향성 테스트, 환각 발생률)를 활용.
- 위험 평가:
- 모델이 악의적 목적으로 사용될 가능성(예: 화학, 생물학적 위협 생성)을 점검.
- 모델의 설득 및 사회공학 능력을 평가.
4. 문제 해결 방법론
- 체인 오브 씽킹(CoT) 출력 모니터링:
- CoT를 분석하여 오류 또는 잠재적 위험 요소를 추적.
- 모델 계층 구조(Instruction Hierarchy):
- 시스템 메시지 > 개발자 메시지 > 사용자 메시지 순으로 모델이 명령을 우선시하도록 학습.
- 환경 설정 및 맥락 기반 평가:
- Kali Linux 툴, 브라우저 자동화 도구 등을 사용한 사이버 보안 및 생물학적 실험 수행 능력 테스트.
5. 다분야 응용 및 특별한 평가
- 생물학적 도구 통합:
- 외부 실험 환경과 통합하여 복잡한 생물학적 문제 해결 능력 테스트.
- 변형된 적대적 입력 공격 평가:
- 사용자 입력으로 인한 악의적 행동 유발 시도에 대한 모델의 대응력을 테스트.
- 멀티모달(Multimodal) 입력:
- 텍스트와 이미지 데이터를 혼합하여 입력했을 때 모델의 거부 또는 순응 능력 평가.
6. 결과 피드백과 지속적 개선
- 적응형 모델 개선:
- 평가 결과를 모델 수정에 반영하여 성능 및 안전성 개선.
- 사용자 상호작용 모니터링:
- 배포 후 사용자 피드백과 데이터를 분석하여 지속적 위험 관리.
