首页 > 科技 > 正文

OpenAI向部分付费用户开放GPT-4o语音模式，可提供更自然实时对话

科技来源：IT之家2024-07-31 09:01

　　IT之家 7 月 31 日消息，当地时间 30 日，OpenAI 宣布即日起向部分 ChatGPTPlus 用户开放 GPT-4o 的语音模式(IT之家注：Alpha 版本)，并将于今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。

　　今年 5 月，OpenAI 首席技术官米拉・穆拉蒂(Mira Murati)在演讲中提到：

　　在 GPT-4o 中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意味着所有输入和输出都由同一个神经网络处理。

　　由于 GPT-4o 是我们第一个结合所有这些模式的模型，因此我们在探索该模型的功能及其局限性方面仍处于起步阶段。

　　OpenAI 公司原计划今年 6 月底邀请一小部分 ChatGPT Plus 用户测试 GPT-4o 语音模式，但官方在 6 月宣布推迟，表示需要更多时间打磨该模型，提高该模型检测和拒绝某些内容的能力。

　　根据此前曝光的信息，GPT-3.5 模型的平均语音反馈延迟为 2.8 秒，而 GPT-4 模型的延迟为 5.4 秒，因此在语音交流方面不太优秀，而即将推出的 GPT-4o 可以极大地缩短延迟时间，近乎无缝对话。

　　GPT-4o 语音模式具有快速反应、声音堪比真人等特征，OpenAI 更称 GPT-4o 语音模式可以感知语音中的情感语调，包括悲伤、兴奋或歌唱。

　　OpenAI 发言人林赛・麦卡勒姆(Lindsay McCallum)表示：“ChatGPT 不能假冒他人的声音，包括个人和公众人物的声音，并且会阻止与预设声音不同的输出。”

下一篇：最后一页

【版权及免责声明】凡注明"转载来源"的作品，均转载自其它媒体，转载目的在于传递更多的信息，并不代表本网赞同其观点和对其真实性负责。财经股市网倡导尊重与保护知识产权，如发现本站文章存在内容、版权或其它问题，烦请联系。联系方式：QQ：2261036103，我们将及时沟通与处理。