OpenAI新模型GPT-4o登场！能读懂表情、语气，更像与人类互动

OpenAI新模型GPT-4o登场！能读懂表情、语气，更像与人类互动

OpenAI发布全新模型GPT-4o，透过融合各种功能的「全能模型」打造出更为逼近真人的互动体验，连执行长奥特曼也不禁表示，就像科幻电影里的AI一样。

OpenAI率先发表全新模型GPT-4o

在Google I/O登场前一天，OpenAI毫不留情抢走他们的风采，率先发表全新模型GPT-4o，在拥有GPT-4等级智慧的同时，具备更为强大的语音、视讯处理能力，并能给予用户逼近与真人互动的感受。

GPT-4o的特别之处，或许从名字就可以窥之一二，o指的是omni，中文意思类似「全、一切」，代表着新模型跨越文字、音讯及视讯推理的能力。「我们宣布推出GPT-4o，这是我们的全新旗舰模型，能够即时推理音讯、视讯及文字。」OpenAI在声明中表示。

逼近人类的回应能力，「就像电影里的AI」

GPT-4虽然也能辨识图像、进行文字语音转换等服务，但OpenAI过去将这些功能放在不同的模型之中，导致回应时间更长，而GPT-4o则将这些功能全部整合在一个模型里，被他们称为omnimodel（全能模型，暂译）。与上一代旗舰GPT-4 Turbo相比，GPT-4o在英文及程式语言的表现上相仿，不过英文外的语言则有显著的效能提升，并且API的速度更快、成本也降低了多达50 %。

OpenAI指出，GPT-4o有着接近人类的回应时间，能提供用户更自然的沟通体验，可以在最短232毫秒（0.232秒）、平均320毫秒（0.32秒）的时间内回应问题。作为比较，GPT-3.5及GPT-4在语音模式的回应时间，分别为2.8秒和5.4秒。

在OpenAI的演示，GPT-4o能够进行即时口译，让不同语言的两人也能无碍沟通。图/ YouTube

在OpenAI的演示中，GPT-4o能够在聊天过程中即时口译，让说着不同语言的两人顺畅地进行交谈。又或者请求GPT-4o讲一个睡前故事时，可以用更饱满、有语气的声音生动地说故事；又或者能用接近人类的口吻，教导人们解开简单的数学问题。

根据OpenAI说法，GPT-4o能够「读懂」用户的表情与语气，知道什么时候该如何做出回应，并能在不同的语气间快速切换，一下是冷冰冰的机械声，一下又能活泼地唱起歌来。 OpenAI技术长米拉．穆拉蒂（Mira Murati）指出，GPT-4o的开发是受到人类交谈过程启发，「当你停止说话时，就轮到我开口了。我可以读懂你的语气并回应。它就是这么自然、丰富且具互动性。」

「新的语音（和视讯）模式是我用过最棒的电脑界面，就像电影里看到的AI一样。」OpenAI执行长山姆．奥特曼（Sam Altman）也在部落格上表示，「我还有点吃惊这是真的，事实证明达到人类水准的回应时间和表达能力变化有多大。」

虽然演示过程并没有一切完美，《MIT科技评论》指出，过程中GPT-4o有时会打断人们说话、还在未被要求的情况下突然评论起一位主持人的服装穿着，不过被演示者指正后很快就恢复正常。

穆拉蒂透露，透过omnimodel的力量，未来GPT技术还会进一步提升，例如能够在观看体育赛事转播后向用户解释竞赛规则，不单单只是完成翻译图片文字等简单任务。

OpenAI表示，目前用户将可以在免费版本中使用GPT-4o，而付费订阅者则可以享有免费版5倍的讯息限制。而以GPT-4o为基础的语音服务，预计会在下个月提供订阅用户测试版。 GPT-4o能免费提供给用户，也反应了OpenAI确实在降低成本上取得成果。

不过OpenAI提到，出于对遭到滥用的担忧，语音功能暂时不会开放给所有API用户，未来几周内会先提供给部份值得信赖的合作伙伴使用。

ChatGPT电脑版程序登场、GPT Store免费开放

在GPT-4o大幅增强语音、视讯功能的同时，OpenAI也宣布为网页版推出更新的ChatGPT UI，声称具有更对话式的主界面及讯息呈现。穆拉蒂强调，虽然模型越来越复杂，她希望用户与AI的互动体验能够更为简单明了、轻松自然，让用户不必费神在UI上，而是专注与ChatGPT协作。

OpenAI也公布了电脑版本的ChatGPT程式，预计率先推出MacOS版本，Windows版本则要今年内稍晚的时候推出。值得一提的是，稍早才传出OpenAI与苹果就AI技术合作的协商已经进入尾声，此时率先端出Mac版本程式，引发外界联想。

OpenAI宣布推出MacOS版本的ChatGPT应用程式。图/ OpenAI

另外，OpenAI在今年初推出GPT Store，让开发者能客制化各种功能的聊天机器人，并上架到商店里供其他用户使用，现在这个平台将免费开放给所有用户，未来免费用户也能使用过去付费用户才能享有的特定功能。