본문 바로가기

Cloud/AZURE

Azure OpenAI - GPT-4o Playground 사용하기

지난 5월 13일 OpenAI에서 오디오, 비전, 텍스트를 실시간으로 추론할 수 있는 새로운 플래그쉽 모델인 GPT-4o('o' 혹은 'omni')를 공개했습니다. 

GPT-4o의 주요 특징은 다음과 같습니다. 

다양한 입력 및 출력 형식
GPT-4o는 텍스트, 오디오, 이미지, 비디오의 조합을 입력으로 받아들일 수 있으며, 텍스트, 오디오, 이미지 출력을 생성할 수 있습니다. 오디오 입력에 대한 응답 속도는 최저 232 밀리초, 평균 320 밀리초로, 인간의 대화 응답 시간과 유사합니다.

성능 및 비용 효율성
GPT-4o는 텍스트 처리 성능에서 GPT-4 Turbo와 동등한 수준을 유지하면서도, 비영어 텍스트 처리 성능이 크게 향상되었습니다. 또한, API 사용 시 속도가 두 배 빠르고 비용이 50% 저렴해졌습니다. 특히 비전과 오디오 이해 능력이 기존 모델에 비해 크게 향상되었습니다.

모델 평가
GPT-4o는 전통적인 벤치마크에서 텍스트, 추론, 코딩 지능 면에서 GPT-4 Turbo 수준의 성능을 달성했으며, 다국어, 오디오, 비전 능력에서는 새로운 최고 기록을 세웠습니다.

언어 토크나이제이션(Language tokenization)
새로운 토크나이저를 사용하여, 다양한 언어에서 기존 대비 더 적은 토큰을 사용하게 됩니다.
한국어의 경우 기존보다 1.7배 가량 더 적은 토큰을 사용하게 됩니다.

OpenAI에서 제시한 새로운 토크나이저 사용에 따른 토큰 효율 예시

 

Azure에서도 OpenAI의 새로운 모델인 GPT-4o를 Azure OpenAI에서 사용하도록 Preview 형태로 지난 5월 14일에 공개했습니다.

다만, 현재 Azure에서는 2개 리전(미국서부3, 미국동부)에서 Azure OpenAI Studio Early Access Playground(미리보기)에서만 테스트가 가능하며, 추후에 모델 배포 및 API 접근이 가능 할 것으로 보입니다.

이번 포스팅에서는 Azure OpenAI Studio에서 GPT-4o를 간단히 사용해 보겠습니다.

먼저 Azure OpenAI Studio의 초기 화면에 들어가시면, 

'시작'의 첫 번째에 Early Access Playground(미리보기)로 GPT-4o 모델을 사용 할 수 있는 메뉴가 보입니다.

하단에 '지금 사용해 보기'를 클릭해서, Playground로 들어갑니다.

 

Early access playground가 Preview로 제공되는 것을 확인 할 수 있습니다.

기본 시스템 메시지가 간단히 작성되어 있습니다.

'템플릿 선택'을 클릭하면, 

 

다음과 같이 기본적으로 제공하는 다양한 사례의 시스템 메시지 템플릿을 선택 할 수 있습니다.

시스템 메시지 템플릿을 선택하면, 해당 템플릿 내용에 맞는 시스템 메시지가 업데이트 됩니다.

 

시스템 메시지 사용 아래에 '예제 사용'을 추가하면, 

GPT가 답변을 생성 시에, 참고 할 수 있도록 One Shot 혹은 2개 이상을 추가하여 Few Shot Learning을 할 수 있습니다.

 

그리고, 실제 메시지를 주고 받을 수 있는 채팅창이 있습니다. 

하단에 채팅을 입력하여 보내기를 누르면 GPT-4o와 채팅을 할 수 있습니다.

 

추가적으로 모델 및 세션 설정을 할 수 있는 데, 

Early access playground에서는 'gpt-4o preview'만 제공이 되고 있습니다. 

지난 메시지를 몇 개까지 포함할지 세션 설정을 최소 1개에서 20개까지 할 수 있습니다. (기본 값 10개)

 

매개변수에서는 최대 응답 토큰 수와 답변에 대한 Temperture 등을 설정 할 수 있습니다.

 

앞서 GPT-4o의 소개에서 살펴보았지만, 개인적으로 제일 기대됐던 것은 속도의 개선이었습니다.

기존의 GPT 3.5의 경우에는 속도가 빠르지만, 성능이 상대적으로 떨어지고

GPT 4의 경우에는 성능이 상대적으로 좋지만, 속도가 많이 느렸기 떄문입니다.

그래서 다음의 질문을 GPT-4o, GPT-3.5, GPT-4에서 각각 동일하게 물어보았습니다.

IT  블로그를 잘 작성하기 위해서 필요한 것들과, 어떤 형식으로 블로그를 작성하면 좋을지, 블로그 본문에 포함되어야 하는 주요 항목에 대해서 알려주세요.

 

먼저 GPT-4o의 경우에는 답변까지 8.17초가 걸렸습니다. 

생각보다도 매우 빠른 속도였던 것 같습니다.

 

GPT 3.5에서 동일한 질문에 대해서 9.41초가 걸렸습니다.

GPT-4o보다 조금 늦은 수준이었지만,

사실 매번 생성되는 시간은 달라지기 때문에 GPT-4o와 GPT 3.5간에는 거의 동일한 수준이라고 보면 될 것 같았습니다.

 

반면 GPT 4의 경우에는 47.29초가 걸렸습니다. 

OpenAI에서 소개한 속도 개선보다 더 많은 차이가 보였습니다.

 

물론, 이러한 속도 차이는 매번 다양한 요소로 달라질 수 있기 때문에, 

맹신할 수는 없으나, 전반적으로 동일한 질문은 수 차례 다시 해보고

다른 질문을 해보았으나, GPT 3.5와 GPT-4o는 거의 유사한 수준의 성능이었고

GPT 4는 상대적으로 많은 느렸습니다. 

 

그리고 GPT-4o는 멀티모달이 가능하기 때문에 공개된 이미지를 올려서 분석 요청을 해 보았습니다.

경복궁에 있는 근정전의 사진이었는 데, 해당 이미지를 가지고 잘 분석해 주는 것을 볼 수 있었습니다.

 

아직 Azure에서는 GPT-4o를 API로는 사용 할 수는 없지만

조만간 GPT-4o까지 API로 사용 할 수 있게된다면, Azure를 통해서 더욱 강력한 서비스를 만들 수 있게 될 것 같습니다.