AI更像人?OpenAI推“全能”大模型
是的,OpenAI又“改变世界”了。自年初“文生视频模型”Sora后,研发ChatGPT的OpenAI于北京时间5月14日凌晨在春季发布会上推出了具备“听、看、说”能力的GPT-4o。OpenAI解释,“o”代表“全能”,是朝着更自然的人类与计算机交互迈出的一步。
有情绪的AI来了
OpenAI的新品终于官宣,是一个“全能助手”。GPT-4o是OpenAI为聊天机器人ChatGPT发布的语言模型。该模型可以帮助ChatGPT实时对音频、视觉和文本进行推理,接受文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。
中新网报道,OpenAI称,GPT-4o可以在短至232毫秒的时间内对音频输入做出反应,平均反应时间为320毫秒,这与人类在对话中的反应时间相近。此外,它在英语和代码文本方面的性能与GPT-4Turbo相当,在非英语语言文本方面也有显著提高。
现场,OpenAI展示了GPT-4o的多个应用场景。
例如,在一个演示中,OpenAI前沿研究负责人马克·陈通过手机与ChatGPT进行对话。陈和ChatGPT说,他正在进行演示有些紧张,于是ChatGPT就“像朋友一样”,对他进行了安慰。同时,ChatGPT还能从陈急促的喘气声中,听出他的紧张,然后对他说“慢一点。马克,你不是吸尘器。吸气,然后数到四。”
在另一个演示中,OpenAI后训练团队负责人巴雷特·佐夫把自己的脸对着镜头,通过GPT-4o看看自己的情绪如何。ChatGPT对佐夫说,“你看起来很开心,笑容灿烂。”
同时,OpenAI还在官网发布了一系列演示视频:GPT-4o可以帮助学习数学、学习西班牙语、准备面试,可以通过画面判断出你正在过生日,然后给你唱生日快乐歌,可以根据要求唱不同风格的催眠曲,甚至还可以当“石头剪刀布”的裁判。而在这些视频中,GPT-4o与演示者的对话流畅,说话语气就“像真人一样”。
媒体网友拍手叫好 马斯克:慢得离谱
对于最新发布的大模型,有网友评价道,根据目前展示的视频来看,GPT-4o在语音交互体验上提升了不少。还有网友认为,GPT-4o对算力的需求更大了。也有网友提出,既然GPT-4o具备了“视觉”,它是否可以代替盲人看世界。
同时,多家媒体也将焦点对准了GPT-4o。
中新经纬报道,《华尔街日报》中文网14日称,OpenAI发布了最新的旗舰人工智能模型GPT-4o,称该模型提升了速度和性能。
另据路透社报道,OpenAI研究人员在一次直播活动中展示GPT-4o新的音频功能,使用户能够与ChatGPT交谈并无延迟地获得实时响应,并在ChatGPT说话时打断它。OpenAI首席执行官Sam Altman在一篇博客中评价“感觉就像电影中的人工智能……对我来说,与电脑交谈从未感到真正自然。现在它做到了。”
路透社报道指出,OpenAI面临着越来越大的竞争和扩大ChatGPT用户群的压力。在2022年底推出后不久,ChatGPT被称为有史以来最快的达到1亿月活跃用户的应用程序。然而,根据分析公司Similarweb的数据,在过去的一年里,ChatGPT网站的全球流量一直在过山车上,直到现在才恢复到2023年5月的峰值。此次,OpenAI在谷歌一年一度的开发者大会前一天宣布这一消息。预计谷歌将在会上展示自己的人工智能相关新功能。
不过,特斯拉和SpaceX的首席执行官埃隆·马斯克对OpenAI最新开发的AI模型的能力表示怀疑。
北京和讯网报道,一名用户在X上分享了一段GPT-4o代表自己与另一名代表该公司的聊天机器人说话的演示视频。
另一名用户分享了这段视频,并评论道:“99%的经济将是AI之间的对话”,可能是指很快大多数经济活动将由人工智能系统促进。
然而,马斯克对这两位用户的帖子和评论不以为然,回应称“不是以这种慢得离谱的比特率。”