본문 바로가기
IT 이야기

GPT-4o 의 놀라운 수준!

by Bryon 2024. 5. 17.
반응형

GPT-4o 공식 소개 영상 이미지

 

GPT-4o 의 놀라운 수준!

[ 소개 전문 ]

GPT-4o("옴니"를 의미하는 "o")는 훨씬 더 자연스러운 인간-컴퓨터 상호 작용을 향한 한 단계입니다. 텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오 및 이미지의 모든 조합을 생성합니다. 출력. 232밀리초 안에 오디오 입력에 응답할 수 있으며, 평균 320밀리초로 인간의 응답 시간 과 비슷합니다.(새 창에서 열립니다)대화 중. 영어 및 코드 텍스트의 GPT-4 Turbo 성능과 일치하며, 영어가 아닌 언어의 텍스트에 대한 상당한 개선이 이루어지며, API에서는 훨씬 빠르고 50% 저렴합니다. GPT-4o는 특히 기존 모델에 비해 시각 및 청각 이해도가 더 뛰어납니다.

모델 기능
GPT-4o 이전에는 음성 모드를 사용하여 평균 2.8초(GPT-3.5) 및 5.4초(GPT-4)의 지연 시간으로 ChatGPT와 대화할 수 있었습니다. 이를 달성하기 위해 음성 모드는 세 가지 개별 모델의 파이프라인입니다. 하나의 간단한 모델은 오디오를 텍스트로 변환하고, GPT-3.5 또는 GPT-4는 텍스트를 가져와 텍스트를 출력하며, 세 번째 단순 모델은 해당 텍스트를 다시 오디오로 변환합니다. 이 과정은 지능의 주요 원천인 GPT-4가 많은 정보를 잃음을 의미합니다. 음색, 여러 화자 또는 배경 소음을 직접 관찰할 수 없으며 웃음, 노래 또는 감정 표현을 출력할 수 없습니다.

GPT-4o를 통해 우리는 텍스트, 비전, 오디오 전반에 걸쳐 새로운 단일 모델을 처음부터 끝까지 훈련했습니다. 즉, 모든 입력과 출력이 동일한 신경망에서 처리된다는 의미입니다. GPT-4o는 이러한 모든 양식을 결합한 첫 번째 모델이기 때문에 우리는 여전히 모델이 수행할 수 있는 작업과 한계를 탐색하는 표면적인 단계에 불과합니다.

모델 평가

기존 벤치마크에서 측정한 바와 같이 GPT-4o는 텍스트, 추론 및 코딩 지능에서 GPT-4 터보 수준의 성능을 달성하는 동시에 다국어, 오디오 및 비전 기능에서 새로운 최고 수준의 워터마크를 설정합니다.

GPT 4o 텍스트 성능 분석 이미지


모델 안전 및 제한 사항

GPT-4o는 교육 데이터 필터링 및 교육 후 모델 동작 개선과 같은 기술을 통해 여러 양식에 걸쳐 설계에 안전 기능이 내장되어 있습니다. 또한 음성 출력에 가드레일을 제공하기 위해 새로운 안전 시스템을 만들었습니다. 우리는

대비 프레임워크 와 자발적인 약속 에 따라 GPT-4o를 평가했습니다 . 사이버 보안, CBRN, 설득 및 모델 자율성에 대한 우리의 평가에 따르면 GPT-4o는 이러한 범주 중 어느 것에서도 중간 위험 이상의 점수를 얻지 못한 것으로 나타났습니다. 이 평가에는 모델 교육 프로세스 전반에 걸쳐 자동화된 평가 및 인적 평가 제품군을 실행하는 작업이 포함되었습니다. 우리는 모델 기능을 더 잘 이끌어내기 위해 맞춤형 미세 조정 및 프롬프트를 사용하여 모델의 사전 안전 완화 버전과 사후 안전 완화 버전을 모두 테스트했습니다. GPT-4o는 또한

새로 추가된 양식에 의해 도입되거나 증폭되는 위험을 식별하기 위해 사회 심리학, 편견 및 공정성, 잘못된 정보 등의 영역에서 70명 이상의 외부 전문가 로 구성된 광범위한 외부 레드팀을 거쳤습니다 . 우리는 GPT-4o와 상호 작용할 때의 안전성을 향상시키기 위해 이러한 학습 내용을 사용하여 안전 개입을 구축했습니다. 우리는 새로운 위험이 발견되면 계속해서 완화할 것입니다.

우리는 GPT-4o의 오디오 방식이 다양한 새로운 위험을 안고 있다는 것을 알고 있습니다. 오늘 우리는 텍스트 및 이미지 입력과 텍스트 출력을 공개적으로 출시합니다. 앞으로 몇 주, 몇 달 동안 우리는 기술 인프라, 사후 교육을 통한 유용성, 다른 양식을 출시하는 데 필요한 안전성에 대해 작업할 것입니다. 예를 들어, 출시 시 오디오 출력은 사전 설정된 음성 선택으로 제한되며 기존 안전 정책을 준수합니다. 우리는 곧 출시될 시스템 카드에서 GPT-4o의 전체 범위에 대한 자세한 내용을 공유할 것입니다.

모델에 대한 테스트와 반복을 통해 모든 모델 양식에 존재하는 몇 가지 제한 사항을 관찰했으며 그 중 몇 가지가 아래에 설명되어 있습니다.

우리는 모델을 지속적으로 개선할 수 있도록 GPT-4 Turbo가 여전히 GPT-4o보다 성능이 뛰어난 작업을 식별하는 데 도움이 되는 피드백을 환영합니다. 

모델 가용성

GPT-4o는 딥 러닝의 한계를 뛰어넘는 최신 단계로, 이번에는 실용적인 사용성을 지향합니다. 우리는 지난 2년 동안 스택의 모든 계층에서 효율성을 개선하기 위해 많은 노력을 기울였습니다. 이 연구의 첫 번째 성과로 우리는 GPT-4 수준 모델을 훨씬 더 광범위하게 사용할 수 있게 되었습니다. GPT-4o의 기능은 반복적으로 출시될 예정입니다(오늘부터 확장된 레드팀 액세스 포함). 

GPT-4o의 텍스트 및 이미지 기능이 오늘 ChatGPT에서 출시되기 시작했습니다. 우리는 무료 계층에서 GPT-4o를 사용할 수 있도록 하고 있으며 Plus 사용자에게는 최대 5배 더 높은 메시지 제한을 제공합니다. 앞으로 몇 주 안에 ChatGPT Plus 내에서 GPT-4o 알파 버전의 음성 ​​모드 새 버전을 출시할 예정입니다.

개발자는 이제 API에서 텍스트 및 비전 모델로 GPT-4o에 액세스할 수도 있습니다. GPT-4o는 GPT-4 Turbo에 비해 2배 빠르고 가격은 절반이며 속도 제한은 5배 더 높습니다. 우리는 앞으로 몇 주 안에 API의 신뢰할 수 있는 소규모 파트너 그룹에 GPT-4o의 새로운 오디오 및 비디오 기능에 대한 지원을 시작할 계획입니다.

 

[  발표 후 사용자 관점에서의 의견들 정리 ]

GPT-4o 출시와 멀티모달 AI 기능 발전


GPT-4o 출시 및 주요 기능

-  출시된 GPT-4o는 텍스트, 비전, 오디오 분야에서 업그레이드되었으며, 더 빠르고 다양한 기능을 제공한다.
- 이 모델은 텍스트 답변을 인간과 유사한 속도로 제공하며, 오디오 입력을 통해 더 신속한 답변이 가능하다.
- GPT-4o 의 API도 출시되어 두 배 더 빠르고 50% 가격 할인된 서비스를 이용할 수 있다.

멀티모달 기능 발전

- GPT-4o의 오디오 대화 기능은 빠르고 자연스러워졌으며, 감정 표현을 풍부하게 하여 인간처럼 대화할 수 있다.
- 인공지능이 감정적으로 대화하거나 노래 등 다양한 요청도 이해하며 처리하고, 비전 분석 기능도 발전했다.
- 이미지와 영상 분석 기술이 발전하여 상황과 감정을 파악할 수 있고, 카메라를 통해 작업 과정을 실시간 확인하며 수학 문제를 단계별로 도움을 줄 수 있다.
- 새로운 기능으로 텍스트, 이미지, 오디오 업그레이드가 포함되며, 영상 및 이미지 생성 기능도 추가되었다. 사용자는 텍스트를 이미지에 넣거나 캐릭터 디자인 등을 손쉽게 만들 수 있다.

세부 기능과 업그레이드

- 클립 이모티콘을 통한 세부 기능 확장이 가능하며, 카메라 기능으로 사진 촬영 후 감정 분석을 할 수 있다.
- 텍스트와 그래프 인식 능력이 향상되어 PDF 파일 분석이 용이해졌으며, 이미지가 포함된 표나 그래프를 잘 추출하여 부품 관리 업무나 코드 분석에 도움이 된다.
- 실시간으로 다양한 작업을 처리하고 코드를 정확히 해석하여 사용자 요구에 신속하게 응답할 수 있다.

데스크탑 및 앱 활용

- 실제 데스크탑 앱을 통해 GPT-4o를 사용할 수 있으며, 데스크탑 앱에서 앱 내 음성 대화가 가능하고 모바일 기능도 활성화되었다.
- 스프링 업데이트에서는 음성 기능이 아직 업데이트가 필요하지만, 음성 대화 가능성이 언급되었다.

미래 전망

- GPT-4o의 출시와 함께 멀티모달 AI 기능의 발전으로 다양한 분야에서 혁신적인 변화가 기대된다.
- 이미지 인식 기술의 발전으로 다양한 기능 구현 가능성이 열렸고, 사용자들의 높은 기대를 받고 있다.
- GPT-4o의 높은 품질과 신속한 답변으로 사용자 요구에 부응할 수 있으며, 많은 사용자가 GPT-4o를 선호하고 있다.

반응형