OpenAI发布全新模型GPT-4o,透过融合各种功能的「全能模型」打造出更为逼近真人的互动体验,连执行长奥特曼也不禁表示,就像科幻电影里的AI一样。
OpenAI率先发表全新模型GPT-4o
在Google I/O登场前一天,OpenAI毫不留情抢走他们的风采,率先发表全新模型GPT-4o,在拥有GPT-4等级智慧的同时,具备更为强大的语音、视讯处理能力,并能给予用户逼近与真人互动的感受。
GPT-4o的特别之处,或许从名字就可以窥之一二,o指的是omni,中文意思类似「全、一切」,代表着新模型跨越文字、音讯及视讯推理的能力。 「我们宣布推出GPT-4o,这是我们的全新旗舰模型,能够即时推理音讯、视讯及文字。」OpenAI在声明中表示。
逼近人类的回应能力,「就像电影里的AI」
GPT-4虽然也能辨识图像、进行文字语音转换等服务,但OpenAI过去将这些功能放在不同的模型之中,导致回应时间更长,而GPT-4o则将这些功能全部整合在一个模型里,被他们称为omnimodel(全能模型,暂译)。与上一代旗舰GPT-4 Turbo相比,GPT-4o在英文及程式语言的表现上相仿,不过英文外的语言则有显著的效能提升,并且API的速度更快、成本也降低了多达50 %。
OpenAI指出,GPT-4o有着接近人类的回应时间,能提供用户更自然的沟通体验,可以在最短232毫秒(0.232秒)、平均320毫秒(0.32秒)的时间内回应问题。作为比较,GPT-3.5及GPT-4在语音模式的回应时间,分别为2.8秒和5.4秒。
在OpenAI的演示,GPT-4o能够进行即时口译,让不同语言的两人也能无碍沟通。图/ YouTube
在OpenAI的演示中,GPT-4o能够在聊天过程中即时口译,让说着不同语言的两人顺畅地进行交谈。又或者请求GPT-4o讲一个睡前故事时,可以用更饱满、有语气的声音生动地说故事;又或者能用接近人类的口吻,教导人们解开简单的数学问题。
根据OpenAI说法,GPT-4o能够「读懂」用户的表情与语气,知道什么时候该如何做出回应,并能在不同的语气间快速切换,一下是冷冰冰的机械声,一下又能活泼地唱起歌来。 OpenAI技术长米拉.穆拉蒂(Mira Murati)指出,GPT-4o的开发是受到人类交谈过程启发,「当你停止说话时,就轮到我开口了。我可以读懂你的语气并回应。它就是这么自然、丰富且具互动性。」
「新的语音(和视讯)模式是我用过最棒的电脑界面,就像电影里看到的AI一样。」OpenAI执行长山姆.奥特曼(Sam Altman)也在部落格上表示,「我还有点吃惊这是真的,事实证明达到人类水准的回应时间和表达能力变化有多大。」
虽然演示过程并没有一切完美,《MIT科技评论》指出,过程中GPT-4o有时会打断人们说话、还在未被要求的情况下突然评论起一位主持人的服装穿着,不过被演示者指正后很快就恢复正常。
穆拉蒂透露,透过omnimodel的力量,未来GPT技术还会进一步提升,例如能够在观看体育赛事转播后向用户解释竞赛规则,不单单只是完成翻译图片文字等简单任务。
OpenAI表示,目前用户将可以在免费版本中使用GPT-4o,而付费订阅者则可以享有免费版5倍的讯息限制。而以GPT-4o为基础的语音服务,预计会在下个月提供订阅用户测试版。 GPT-4o能免费提供给用户,也反应了OpenAI确实在降低成本上取得成果。
不过OpenAI提到,出于对遭到滥用的担忧,语音功能暂时不会开放给所有API用户,未来几周内会先提供给部份值得信赖的合作伙伴使用。
ChatGPT电脑版程序登场、GPT Store免费开放
在GPT-4o大幅增强语音、视讯功能的同时,OpenAI也宣布为网页版推出更新的ChatGPT UI,声称具有更对话式的主界面及讯息呈现。穆拉蒂强调,虽然模型越来越复杂,她希望用户与AI的互动体验能够更为简单明了、轻松自然,让用户不必费神在UI上,而是专注与ChatGPT协作。
OpenAI也公布了电脑版本的ChatGPT程式,预计率先推出MacOS版本,Windows版本则要今年内稍晚的时候推出。值得一提的是,稍早才传出OpenAI与苹果就AI技术合作的协商已经进入尾声,此时率先端出Mac版本程式,引发外界联想。
OpenAI宣布推出MacOS版本的ChatGPT应用程式。图/ OpenAI
另外,OpenAI在今年初推出GPT Store,让开发者能客制化各种功能的聊天机器人,并上架到商店里供其他用户使用,现在这个平台将免费开放给所有用户,未来免费用户也能使用过去付费用户才能享有的特定功能。