Openai 发布全新旗舰生成式 ai 模型 gpt4o语音对话更流畅免费提供

openai-发布全新旗舰生成式-ai-模型-gpt4o语音对话更流畅免费提供

据TechCrunch等多家外国科技媒体的综合报道，OpenAI的首席技术官穆里·穆拉蒂（Muri Murati）透露，GPT-4将会展现出与GPT-4相当的智能水平，不过在文本处理、图像理解和语音处理等方面都将实现显著的进步。

“GPT-4o 拥有整合声音、文字和视觉数据进行推断的能力，”穆拉蒂在 OpenAI 总部的演讲中提到。作为 OpenAI 的前一款顶级模型，GPT-4 已经能够处理图文混合的信息，能够执行如识别图像中的文字或描绘图像内容等任务。而GPT-4o 更进一步，增加了对语音的处理功能。

GPT-4o 的运行效率将显著提高，其最具创新性的特点是采用了先进的语音交互技术。OpenAI 不断努力实现让用户能够以语音方式与 ChatGPT 进行流畅对话，宛如与真实的人交谈。然而，以前的版本由于延迟问题，使得对话体验的逼真度大打折扣。在 GPT-4o 中，通过采用崭新的技术，极大地提高了聊天机器人的响应速度，从而提升了对话的流畅性和沉浸感。

在发布会上，OpenAI 展示了GPT-4o的语音对话能力。当提问环节结束时，GPT-4o 能够迅速做出近乎实时的回应，并借助文本转化为语音的技术流畅地读出回答，从而使交谈显得更为真实和流畅。

另一个展示则揭示了GPT-4o的卓越变声能力，它能依照指示灵活转变语调，从激情澎湃的戏剧式表达转变为冷漠僵硬的机械音，充分体现了其惊人的适应性。此外，该演示还突出了一项独特技能——GPT-4o的歌唱才华。

过去，当OpenAI推出新的ChatGPT模型时，一般会设置付费访问限制。但此次GPT-4将对所有用户免费开放，而付费用户则能获得比普通用户高达五倍的调用权限。

除此之外，OpenAI 还推出了台式机版本的 ChatGPT 和一个改良的用户界面。穆拉蒂指出：“我们明白这些模型的复杂性在不断增加，但我们的目标是使用户与人工智能系统的交流变得更加直观和轻松，让使用者能全神贯注于与模型的互动，而不必分心于界面操作。”