事件 5月14日,OpenAI发布GPT-4o模型,o源自词根omni,代表着全能,也揭示OpenAI在多模态的发展中更进一步。根据官网和已发布的信息,GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。其中文本和图像的功能从今天开始已经可以在ChatGPT中使用,万众瞩目的语音功能在未来几周才会面向Plus用户开放使用。 除了语音功能外,ChatGPT同时更新了一些新的小功能插件,本文将给大家展示全新的GPT-4o到底有什么魅力让大家惊叹不已,赞叹连连。 全新的语音聊天助手 在 GPT-4o 之前, ChatGPT 已经可以进行语言聊天交流。其中,GPT-3.5的平均延迟为 2.8 秒,而GPT-4为5.4 秒。语音聊天助手由三个独立模型组成:第一个模型将音频转录为文本,第二个模型由GPT-3.5 或 GPT-4 接收文本并输出文本,第三个模型将该文本转换回音频。 但在这个过程GPT-4 会丢失大量信息——它无法直接辨别不同的音调、不同的讲话者以及背景噪音,也无法发出笑声、歌声或表达情感。 GPT-4o在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。GPT-4o 是OpenAI第一个结合了所有这些模式的模型,所以OpenAI宣称,GPT-4o仍然只是在探索该模型可以做什么及其局限性的尝试(we are still just scratching the surface of exploring what the model can do and its limitations)。[i] 探索GPT-4o全新的功能 GPT-4o在其官网上展示了一些带探索的全新功能,话不多说,直接开始展示: 资料来源:OpenAI官网 这个功能叫做机器人作家的博客,你输入自己想讲述的内容,会看到屏幕上机器的