OpenAI의 딥 러닝 스케일업 노력의 최신 이정표인 GPT-4를 만들었습니다. GPT-4는 대규모 멀티모달 모델(이미지 및 텍스트 입력, 텍스트 출력)로, 많은 실제 시나리오에서는 인간보다 성능이 떨어지지만 다양한 전문 및 학술 벤치마크에서 인간 수준의 성능을 발휘합니다.예를 들어, 모의 사법시험에 합격하여 상위 10%의 수험생을 대상으로 한 반면 GPT-3.5의 점수는 하위 10% 수준이었다.NAT은 적대적 테스트 프로그램 및 ChatGPT의 교훈을 사용하여 GPT-4를 반복적으로 정렬하여 사실성, 조향성 및 ChatGPTGuardrail 거부와 관련하여 역대 최고의 결과를 얻었습니다.
지난 2년간 딥러닝 스택 전체를 재구축하고 Azure와 함께 워크로드에 맞는 슈퍼컴퓨터를 처음부터 공동 설계했습니다.1년 전, 시스템의 최초의 「테스트 실행」으로서 GPT-3.5를 트레이닝 했습니다.몇 가지 버그를 발견하여 수정하고 이론적 기반을 개선했습니다.그 결과, GPT-4의 트레이닝 실행은 전례 없이 안정되어, 트레이닝의 성과를 사전에 정확하게 예측할 수 있는 최초의 대형 모델이 되었습니다.델은 신뢰성 높은 확장에 초점을 맞추고 있기 때문에, 향후의 기능을 예측해, 보다 사전에 준비할 수 있도록 방법론을 연마하는 것을 목표로 하고 있습니다.이것은 안전에 있어서 매우 중요하다고 생각되고 있습니다.
GPT-4의 텍스트 입력 기능은 ChatGPT와 API(대기 목록 포함)를 통해 공개합니다.폭넓은 가용성을 위해 이미지 입력 기능을 준비하기 위해 NAT은 우선 단일 파트너와 긴밀히 협력하고 있습니다.또한 AI 모델 성능 자동 평가를 위한 프레임워크인 OpenAI Evals를 오픈 소스화하여 누구나 모델의 단점을 보완하여 추가적인 개선을 유도할 수 있도록 지원합니다.
기능
테스트
가벼운 대화에서는 GPT-3.5와 GPT-4의 구분이 미묘할 수 있습니다.이 차이는 태스크의 복잡도가 충분한 문턱값에 도달했을 때 나타납니다.GPT-4는 GPT-3.5보다 신뢰성이 높고 창의적이며 훨씬 미묘한 명령을 처리할 수 있습니다.
두 모델의 차이를 이해하기 위해 원래 인간을 위해 설계된 시험 시뮬레이션을 포함한 다양한 벤치마크에서 테스트했습니다.가장 최근에 공개된 테스트(Olympiads 및 AP 무료 응답 질문의 경우)를 사용하거나 2022-2023 판의 연습 시험을 구매하여 진행했습니다.우리는 이 시험을 위해 특별한 훈련을 하지 않았다.테스트의 문제 중 소수는 교육 중에 모델에 의해 발견되었지만, 그 결과는 대표적이라고 생각합니다
벤치마크
또한 머신러닝 모델용으로 설계된 기존 벤치마크에서 GPT-4를 평가했습니다.GPT-4는 대부분의 최신(SOTA) 모델과 비교하여 기존 대형 언어 모델을 크게 능가합니다.이 모델에는 벤치마크 고유의 크래프트 또는 추가 훈련 프로토콜이 포함될 수 있습니다.
기존의 ML 벤치마크는 대부분 영어로 작성되어 있습니다.다른 언어에 대한 초기 감각을 얻기 위해 57개 과목에 걸쳐 14,000개의 객관식 문제 스위트인 MMLU 벤치마크를 Azure Translate를 사용하여 다양한 언어로 번역했습니다. 테스트 대상 26개 언어 중 24개 언어에서 GPT-4는 GPT-3.5 및 기타 LLM(Kinchilla, PaLM)의 영어 퍼포먼스(Latvia, Welsh, Swahili 등 자원 부족 언어 포함)를 능가합니다.
또, GPT-4를 사내에서 사용하고 있어 서포트, 판매, 컨텐츠 모델레이션, 프로그래밍등의 기능에 큰 영향을 주고 있습니다.또한 인간이 AI 출력을 평가할 수 있도록 지원하여 얼라인먼트 전략의 두 번째 단계를 시작하고 있습니다.
시작적 입력
GPT-4는 텍스트와 이미지의 프롬프트를 받아들일 수 있으며, 텍스트만의 설정과 병행하여 사용자가 비전 또는 언어 태스크를 지정할 수 있습니다.구체적으로는 텍스트와 이미지가 삽입된 입력에 따라 텍스트 출력(자연어, 코드 등)을 생성합니다.GPT-4는 텍스트와 사진, 다이어그램 또는 스크린샷이 포함된 문서를 포함한 다양한 도메인에 걸쳐 텍스트 입력과 유사한 기능을 제공합니다.또한 텍스트 전용 언어 모델용으로 개발된 테스트 시간 기법으로 증강할 수 있습니다. 여기에는 퓨샷(full-shot) 및 생각의 연쇄(chain of think) 프롬프트가 포함됩니다.이미지 입력은 아직 리서치 프리뷰이며 공개적으로 제공되지 않습니다.
우리는 GPT-4의 성과를 표준 학술 비전 벤치마크의 좁은 스위트로 평가함으로써 미리 봅니다.그러나 모델이 처리할 수 있는 새롭고 흥미로운 작업을 끊임없이 발견하기 때문에 이러한 수치는 그 기능의 범위를 완전히 나타내지는 않습니다.조만간 추가 분석 및 평가 수치와 테스트 타임 기술의 효과에 대한 철저한 조사를 발표할 예정입니다.
조향성
우리는 조종성을 포함한 AI의 행동을 정의하는 것에 대해 투고에서 개략적으로 설명한 계획의 각 측면에 대해 작업해 왔습니다.개발자들(그리고 곧 ChatGPT 사용자들)은 고정된 장황함, 톤, 스타일을 가진 고전적인 ChatGPT 성격 대신에 이제 "시스템" 메시지에서 그러한 방향을 설명함으로써 AI의 스타일과 작업을 지시할 수 있다.시스템 메시지를 통해 API 사용자는 사용자 경험을 범위 내에서 크게 사용자 정의할 수 있습니다.여기서 계속 개선해 나가겠습니다(특히 시스템 메시지가 현재 모델을 "구류"하는 가장 쉬운 방법이라는 것을 알고 있습니다.즉, 한계를 준수하는 것은 완벽하지 않습니다.) 하지만, 한 번 사용해 보고 의견을 들려주시기 바랍니다.
제한사항
우리는 조종성을 포함한 AI의 행동을 정의하는 것에 대해 투고에서 개략적으로 설명한 계획의 각 측면에 대해 작업해 왔습니다.개발자들(그리고 곧 ChatGPT 사용자들)은 고정된 장황함, 톤, 스타일을 가진 고전적인 ChatGPT 성격 대신에 이제 "시스템" 메시지에서 그러한 방향을 설명함으로써 AI의 스타일과 작업을 지시할 수 있다.시스템 메시지를 통해 API 사용자는 사용자 경험을 범위 내에서 크게 사용자 정의할 수 있습니다.여기서 계속 개선해 나가겠습니다(특히 시스템 메시지가 현재 모델을 "구류"하는 가장 쉬운 방법이라는 것을 알고 있습니다.즉, 한계를 준수하는 것은 완벽하지 않습니다.) 하지만, 한 번 사용해 보고 의견을 들려주시기 바랍니다.
우리는 Truth QA와 같은 외부 벤치마크에서 진전을 이뤘는데, 이 벤치마크에서는 적대적으로 선택된 일련의 잘못된 진술로부터 사실을 분리하는 모델의 능력을 테스트한다.이 질문들은 통계적으로 매력적인 사실상의 오답과 짝을 이룬다.
GPT-4 기본 모델은 GPT-3.5보다 이 작업에서 약간 더 우수하지만 RLHF 사후 훈련(GPT-3.5에서 사용한 것과 동일한 프로세스 적용) 후에는 큰 격차가 있다.아래의 몇 가지 예를 보면, GPT-4는 일반적인 명언을 선택하는 것을 거부하지만(늙은 개에게 새로운 묘기를 가르칠 수는 없지만) 미묘한 디테일은 여전히 놓칠 수 있다(엘비스 프레슬리는 배우의 아들이 아니었다).
이 모델의 출력에는 다양한 편견이 있을 수 있습니다.이러한 부분에서는 진전이 있었지만, 아직 할 일이 더 있습니다.최근 블로그 투고에 따르면, 우리가 구축한 AI 시스템이 광범위한 사용자 가치를 반영하는 합리적인 디폴트 동작을 갖도록 하고, 이러한 시스템을 넓은 범위 내에서 맞춤화할 수 있도록 하며, 그러한 경계에 대한 대중의 의견을 얻는 것을 목표로 하고 있습니다.
GPT-4는 일반적으로 대부분의 데이터가 끊긴 후(2021년 9월) 발생한 사건에 대한 지식이 부족하고 경험에서 배우지 못한다.경우에 따라서는 단순한 추론 오류를 범할 수 있으며, 이는 많은 도메인에 걸쳐 능력에 부합하지 않는 것처럼 보이거나 사용자의 명백한 허위 진술을 받아들이기 쉽습니다.또, 발생하는 코드에 시큐러티의 취약성을 도입하는 등, 인간이 실시하는 것과 같은 어려운 문제에서도 실패하는 일이 있습니다.
GPT-4는 또한 실수를 할 가능성이 있을 때 작업을 재점검하는 데 신경을 쓰지 않고 예측에서 자신 있게 틀릴 수 있다.흥미롭게도, 사전 교육을 받은 기본 모델은 고도로 보정되었습니다(대개 정답에 대한 예측 신뢰도는 정확할 확률과 일치합니다).그러나 현재 교육 후 프로세스를 통해 교정이 감소합니다.
리스크 및 경감
사전 훈련 데이터의 선택과 필터링, 평가와 전문가 참여, 모델 안전 개선, 감시와 집행 등의 노력을 통해 훈련 초기부터 GPT-4를 안전하고 정렬하기 위해 반복해 왔습니다.
GPT-4는 유해한 조언, 버그 코드 또는 부정확한 정보 생성 등 이전 모델과 유사한 위험을 초래합니다.그러나 GPT-4의 추가 기능은 새로운 위험 표면으로 이어진다.이러한 리스크의 정도를 파악하기 위해 AI 얼라인먼트 리스크, 사이버 보안, 생체 디스크, 신뢰 및 안전, 국제 보안 등의 분야에서 50명 이상의 전문가를 고용하여 모델을 적대적으로 테스트했습니다.그들의 연구결과는 특히 전문지식이 필요한 고위험 영역에서의 모델 행동을 테스트할 수 있게 해주었다.이러한 전문가의 피드백과 데이터는 모델에 대한 완화 및 개선에 반영되었습니다. 예를 들어, 우리는 GPT-4의 위험한 화학 물질 합성 방법에 대한 요청을 거부하는 능력을 개선하기 위한 추가 데이터를 수집했습니다.
GPT-4는 RLHF 교육 중에 추가 안전 보상 신호를 통합하여 그러한 콘텐츠에 대한 요청을 거부하도록 모델을 교육함으로써 유해 출력을 감소시킨다(사용 가이드라인에 정의됨).보상은 안전 관련 프롬프트에 대한 안전 경계와 완료 스타일을 판단하는 GPT-4 제로샷 분류기에 의해 제공된다.모델이 유효한 요청을 거부하는 것을 방지하기 위해 다양한 소스(예: 레이블이 지정된 생산 데이터, 인간 빨간색 팀 구성, 모델 생성 프롬프트)에서 다양한 데이터 세트를 수집하고 허용 및 허용되지 않은 범주 모두에 안전 보상 신호(양수 또는 음수 값)를 적용한다.
우리의 완화는 GPT-3.5에 비해 GPT-4의 많은 안전 특성을 크게 개선했다.GPT-3.5에 비해 허용되지 않는 콘텐츠 요청에 대한 모델의 응답 경향이 82% 감소했으며 GPT-4는 정책에 따라 민감한 요청(예: 의료 조언 및 자해)에 대해 29% 더 자주 응답합니다.
전반적으로 모델 수준의 개입은 나쁜 행동을 유도하는 어려움을 증가시키지만, 그렇게 하는 것은 여전히 가능합니다.또한 사용 가이드라인을 위반하는 콘텐츠를 생성하기 위한 "구금고"가 여전히 존재합니다.AI 시스템의 "토큰당 리스크"가 증가함에 따라, 이러한 개입에 있어서 매우 높은 수준의 신뢰성을 달성하는 것이 중요해질 것입니다.현재로서는 이러한 제한을 악용에 대한 감시와 같은 전개 시간의 안전 기술로 보완하는 것이 중요합니다.
GPT-4와 후속 모델은 유익하거나 해로운 면에서 사회에 큰 영향을 미칠 수 있는 잠재력을 가지고 있다.우리는 외부 연구자와 협력하여 잠재적인 영향을 이해하고 평가하는 방법을 개선하고 미래 시스템에서 발생할 수 있는 위험한 능력에 대한 평가를 구축하고 있습니다.우리는 곧 GPT-4와 다른 AI 시스템의 잠재적인 사회적, 경제적 영향에 대한 우리의 생각을 공유할 것이다.
'생활정보 > 일상' 카테고리의 다른 글
후면 무인 단속 카메라 시행, 이제는 뒤에서 찍는다! (0) | 2023.03.16 |
---|---|
전두환 손자 전우원, 일가 비리 폭로 사건 (0) | 2023.03.15 |
꺼토미 히라의 뜻과 사용하는 이유 (1) | 2023.03.15 |
'더 글로리' 학폭의 진짜 가해자 부모다. (0) | 2023.03.14 |
국민연금 납부 내역 및 예상 수령액 조회 방법 (0) | 2023.03.13 |
댓글