로고

정신병원강제입원-인천,수원,안산,김포,일산,파주
로그인 회원가입
  • 강제입원절차
  • 강제입원절차

    강제입원절차

    챗GPT 유료 서비스 o3 공개, 고급 추론 AI모델 벤치마크 테스트 결과

    페이지 정보

    profile_image
    작성자 Claude
    댓글 0건 조회 31회 작성일 24-12-31 11:29

    본문

    챗GPT gpt 서비스 유료 서비스의 일종인 추론 모델 o1를 넘어선 o3와 o3 mini가 2024년 12월 20일(현지 시간)에 공식적으로 공개를 하게 되었다. 엄밀히 말하면 아직 ChatGPT에 탑재된 것은 아니고, 출시를 앞두고 미리 공개된 것이다. o1(오원)의 업그레이드 버전이라 볼 수 있으며, o2라고 명명하지 앟은 이유는 영국의 통신사 o2와의 혼동을 피하기 위한 목적이며, 그 대신에 o3로 건너뛴 것이라 밝혔다.​Sam Altman, Mark Chen, Hongyu Ren, and special guest Greg Kamradt, President of ARC Prize Foundation, introduce and discuss OpenAI o3, o3-mini, along with a ...o3의 특징은 AGI(인공 일반 지능)로 도약하기 위한 길을 확실하게 개척했다는 평을 받을 정도로 고난이도적인 추론을 요구하는 각종 벤치마크 gpt 서비스 테스트에서 o1에 비해 월등한 성능을 보여줬다. 이는 발표와 동시에 공개된 12 Days of OpenAI: Day 12 라이브 스트리밍에서 간단하게 확인할 수 있다. ​우선 본 라이브 스트리밍에는 2가지의 코딩 관련 벤치마크 결과가 공개되었다. o3는 소프트웨어 벤치마크 SWE-bench Verified 부문에서 71.7% 정확도를 자랑하고 있다. 기존 챗GPT에도 탑재되었던 o1 대비 20% 이상의 성능 향상을 보여준 셈이다.따라서 소프트웨어 엔지니어링 분야에서 더 적극적인 활용을 기대해볼 수 있다.​또한 경쟁 프로그래밍 사이트 Codeforces에서는 ELO 레이팅 2727점 정도를 기록할 정도로 괄목할 만한 성과를 자랑했다. 이것도 전작의 1891점보다 훨씬 더 높은 레이팅을 기록한 것이다. 본 라이브 스트리밍에 참여를 한 OpenAI의 Mark Chen은 MIT 출신의 gpt 서비스 프로그래머이며, 그의 하이 스코어는 2500이라고 밝혔는데, 2700점이면 Codeforces의 퍼센타일 통계 기준 인간의 99.95%를 초과하는 점수라고 보면 된다. 이 기세로 발전한다면 프로그래밍 분야에서 인간을 대체하고도 충분히 남는다고 봐도 과담이 아니다.​o3의 수학 벤치마크 역시 좋은 성과를 보였다. AIME 2024에서 96.7% 정도 정답률을 기록했으며, 이는 전작 o1의 83.3%를 눈에 띌 정도로 넘어섰다고 보면 된다. 이번에 경신한 96.7%의 정답률은 미국 수학 올림픽 예선 기준 한 문제만 틀리는 수준에 불과하며, 수학 분야에서도 월등한 모습을 자랑하고 있다. PhD 수준에 달하는 과학 문제 벤치마크 GPQA Diamond 역시 87.7% 정답률을 기록했다.​이게 다가 아니다. 가장 어렵다고 알려진 수학 벤치마크인 EpochAI Frontier Math 기준으로 25.2%의 gpt 서비스 경이로울 만한 정답률을 기록했다고 밝혔다. 기존 모델이 겨우 2.0% 미만을 기록한 것을 본다면 엄청난 발전이라고 봐도 되겠다.​ARC-AGI작금까지의 벤치마크 테스트는 이번에 공개된 o3 모델의 성능이 나무나도 높아지게 되면서 점수 상한에 도달한 상태다. 따라서 AGI 단계의 모델을 적절하게 평가할 수 있는 여러가지 벤치마크 테스트가 개발되고 있는 중이다. 본 라이브 스트리밍에서 나온 ARC-AGI는 지난 2019년에 구글의 소프트웨어 엔지니어인 François Chollet가 개발을 한 벤치마크에 해당되며, 새 기술을 즉시 학습하면서도 기억하지 않는 작업에 관해서도 즉각적 대응할 수 있는 모델의 능력을 측정하는 것이 특징이다.​여기에 예시 문제가 있다. 좌측에 표시되어 있는 입력 및 출력 관계를 바탕으로 하여 오른쪽 출력이 어떻게 되어야 하는지를 gpt 서비스 예측해야 한다. 보통 인간은 부족한 모서리 부분을 진한 파란색으로 칠해서 해결하겠지만, 기존의 AI 모델들은 이런 간단한 예측 문제를 쉽게 풀지 못했다고 한다.​그리고 단순히 부족한 모서리를 진한 파란색으로 칠하는 문제보다 복잡한 사고력을 요구하는 문제도 있다. 노란 영역 내부에 있는 다른 색의 패널 수를 센 다음 (예를 들어 빨간색 셀이 2개일 경우) 노란색 영역의 주위를 그 폭만큼 둘러싸는 것이다. 그러면 빨간색 2행 폭으로 둘러싸야 한다. 사실 보통 인간 수준에서는 이런 문제를 쉽게 해결할 수 있지만, 그동안의 챗GPT 유료 모델 포함 AI 모델은 이런 추론 자체를 제대로 성공해내지 못했다.​이처럼 ARC-AGI는 AI의 직관적 학습 능력을 측정하는 것이며, 인공지능이 미지의 gpt 서비스 상황에서 어느 수준으로 적응을 하고, 새롭게 나오는 문제를 즉각적으로 학습하고 해결할 수 있는지의 척도를 측정하는 테스트다. o3의 경우 해당 테스트에서 낮은 부하 설정 75.5%, 높은 부하 설정에서는 87.5% 점수를 기록했다.​위의 그래프를 참고해보자. 붉은색 점은 o1 모델을 의미하고, 푸른색 점은 o3를 의미한다. 또한 ARC-AGI를 어린 아이가 풀 경우 85~100% 사이의 점수가 나온다고 하는데, 이 기준을 적용해보면 o3 모델은 평균 인간의 지능 수준을 따라잡았다는 의미로 이어지게 된다. 그리고 지금까지 시행된 ARC-AGI의 점수도 포화가 된 상태라 새로운 AGI 벤치마크 테스트가 필요할 것이라고 밝혔다.​한단계 체급이 낮은 버전인 o3 mini 모델 역시 뛰어난 성능을 자랑한다. 앞서 소개한 경쟁 프로그래밍 사이트 gpt 서비스 Codeforces에서 o3-mini (high) 기준으로 테스트해보며, ELO 레이팅 결과 2073점을 기록했는데 이는 기존에 출시한 o1보다 더 높은 수치를 자랑하고 있음을 방증한다. 이외 수학 벤치마크, GPQA Diamond 결과에서도 좋은 수준을 유지하고 있다.​또한 챗GPT의 개발사 OpenAI는 Deliberative alignment(신중한 정렬)이라는 개념을 새로 도입하여, 일부 유저들이 악의적인 프롬프트를 입력하는 등 각종 탈옥 시도에 대응할 수 있는 안전 방식을 활용할 수 있게 되었다. 해당 방법은 추론 모델에게 사람이 작성하고 해석이 가능한 안전 사양의 텍스트를 직접 가르치고 답변하기 이전에 이런 사양에 대하여 생각의 사슬(CoT)로 추론하게끔 훈련하는 것으로 구성되었다고 보면 된다.​위의 사진은 o1의 안정성을 포함하여 다른 AI 모델(GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 gpt 서비스 Pro)들과 비교한 그래프다. AGI로 향하는 또 다른 희망아직 챗GPT 유료에 도입이 안된 오픈AI의 o3와 o3 mini는 AGI로 가는 새로운 차원문을 개방했다고 봐도 무방하다. 고도의 복합적인 수학과 과학 문제는 물론, 미지의 문제까지 즉각적으로 해결할 수 있는 능력을 확실하게 갖췄으며, 특히 ARC-AGI 테스트에서 괄목할 만한 성과를 보였다는 것은 해당 AI 모델이 단순히 인간에 의해 학습된 기존의 데이터에만 의존하는 것이 아니라 새로운 작업에도 유연하게 적응하며 대처할 수 있음을 의미하는 것이다. 과연 이번 모델의 출시로 인해 인간의 지능을 넘어선 AGI의 분수령이 될지 걱정과 기대가 만연하게 교차하고 있다.대화형 인공지능 서비스의 강자 라인에 속하는 챗GPT 무료 버전은 기존까지만 하더라도 3.5만 지원하였...​

    gpt 서비스

    댓글목록

    등록된 댓글이 없습니다.