오픈AI, 음성 대화·이미지 보고 응답하는 기능 곧 출시

(샌프란시스코=연합뉴스) 김태종 특파원 = 사람처럼 묻고 답하는 생성형 인공지능(AI) 챗GPT가 한층 사람에 가깝게 진화했다. 사람과 음성으로 대화하고 이미지를 보고 질문에 답할 수 있게 된 것이다.

오픈AI는 25일 챗GPT가 '보고 듣고 말하는' 새로운 기능을 조만간 제공하게 된다고 밝혔다.

'듣고 말하는 기능'은 이용자와 음성으로 질문과 답변을 주고받는 기능이다. 지금까지는 프롬프트를 통해 대화했다면 이제는 음성 대화가 가능해진다.

아마존의 AI 비서인 알렉사(Alexa)나 애플의 시리(Siri), 구글 어시스턴트(Google Assistant)와 비슷한 기능이다.

다만, 이들 AI 비서가 주로 이용자의 음성 명령을 실행하는 데 초점이 맞춰져 있는 것과 달리 챗GPT는 대화를 할 수 있다.

음성으로 질문을 하면 챗GPT가 이를 텍스트로 변환해 대규모 언어 모델(LLM)에 전달하고, 답변을 받아 다시 음성으로 변환해 말하는 구조다.

챗GPT 음성은 5가지 형태로 제공되며, 이용자는 이 중 하나를 선택할 수 있다.

오픈AI는 또 세계 최대 음원 스트리밍 서비스인 스포티파이와 협력해 목소리를 유지하면서 다른 언어로 번역이 가능하게 하는 방안도 검토하고 있다고 설명했다.

오픈AI는 이 기능을 향후 2주 이내에 챗GPT 유료 구독자들에게 제공하고, 이후 모든 사람도 이용할 수 있도록 할 것이라고 밝혔다.

챗GPT는 이와 함께 이미지를 '보고 답하는' 기능도 탑재한다.

이용자가 이미지를 업로드하고, 그 이미지를 토대로 질문을 하면 챗GPT가 이미지를 보고 답을 해주는 형태다.

예를 들어 분홍색 선글라스 사진을 업로드하고 그것에 어울리는 옷을 제안하도록 요청하거나 수학 문제 사진을 올리고 그것을 푸는 데 도움을 요청할 수 있다.

오픈AI는 이런 이미지 인식 기능에 대한 동영상을 공유했다.

영상에서 한 사용자가 자전거 이미지를 업로드하고 시트(좌석 높이)를 내리기 위해 도움을 요청하자 챗GPT는 평범한 일반적인 답을 제시했다.

그러나 이용자가 자전거 시트 고정 장치 주위에 동그라미를 한 다음 도움을 요청하자, 챗GPT는 볼트 유형을 인식하고 육각 렌치가 필요하다고 알려준다.

또 사용 설명서와 공구 상자의 사진을 보고 올바른 크기의 렌치가 있는지도 확인해 준다.

이 기능은 향후 몇 주내 유료 구독자와 기업 이용자들에게 제공된다.

오픈AI는 "우리 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것"이라며 "새로운 도구를 점진적으로 제공하는 것이 기능을 개선하고 위험을 완화함으로써 모든 사람이 미래에 더 강력한 시스템을 사용할 수 있도록 준비할 수 있다고 믿는다"고 설명했다.

taejong75@yna.co.kr