GPT-4o概述
北京时间5月14日凌晨1点,OpenAI召开了春季发布会,CTO Mira Murati在台上宣布最新旗舰模型GPT-4o,以及基于GPT-4o模型的ChatGPT,能力综合,像个“真人”,能听、会看、可说。GPT-4o最大的特点是可以多模态实时交互,跟真人响应速度一样。
GPT-4o是一个全新的大语言模型。GPT-4o的“o”代表“omni”。该词意为“全能”。OpenAI 首席执行官山姆·奥特曼 (Sam Altman)在X上提到:“GPT-4o是原生多模态,这意味着它可以在语音、文本和视频分析之间更快地切换。”
根据介绍,GPT-4o改善了ChatGPT的体验,让用户可以更像使用人类助手一样与 ChatGPT 互动,例如,用户可以向由 GPT-4o支持的ChatGPT进行语音提问,并在ChatGPT回答时打断它。OpenAI 表示,该模型能提供 "实时"响应,甚至能捕捉用户声音中的情感,并生成 "一系列不同情感风格 "的语音。
GPT-4o还改进了ChatGPT的视觉功能,是实时视觉助手,它可以是盲人或视力不佳人群的“眼睛”,为他们描述所看到的的世界。
美国免费移动应用程序“Be My Eyes”,它将盲人或视力不佳的人与视力正常的人联系起来,创建一个全球24/7视觉支持网络。“Be My Eyes”CEO透露,已经与 GPT-4o建立合作,很快可以在“Be My Eyes”App中使用。
CTO Mira Murati 表示,GPT-4o 的速度比 GPT-4 Turbo 快 2 倍,便宜 50%,速率限制高 5 倍。
OpenAI宣布GPT-4o宣布可免费使用,这意味着更多的用户可以体验AI带来的便利。不过,免费有容量限制,付费用户将继续 "拥有五倍于免费用户的容量限制"。
GPT-4o多模态实时交互能力在教育中的应用
而视觉与语音多模态实时交互,更打开了教育的想象空间。
01改变学习方式
演示者打开ChatGPT,启动摄像头,对准一道写在纸上的数学题,演示者要求 GPT-4o 帮助他们解决这个问题,但不要泄露答案。然后,GPT-4o语音引导演示者完成了求解简单方程的过程,就像一名真人数学老师。这对于教育行业来说简直是“福音”。
比如,OpenAI官方公布的视频中,邀请了可汗学院创始人萨尔·汗(Sal Khan)和他儿子体验了GPT-4o解答数学题的能力。GPT-4o采用步步引导的方式指导孩子解答问题。
萨尔·汗说:“你要帮他解答这道题目,不给他答案,保证他能理解。”
GPT-4o说:“好的”。然后开始一步步引导孩子解答,孩子答对的话,还赞扬说“很棒”!最终在GPT-4o的引导下,孩子理解了这道题目。
此前,可汗学院已经基于GPT-4推出了“Khanmigo”。可以预见,未来可汗学院或与GPT-4o有更深度的合作。
02重塑各个场景
GPT-4o多模态交互可以重塑家庭场景,比如放摇篮曲、讲故事、玩游戏,让AI在家庭教育&亲子关系中的价值更加凸显;
场景一:演示者使用桌面版 GPT-4o 来检查被试写的一些代码, GPT-4o 不仅可以解释代码的作用,还可以告诉用户如果调整代码的特定部分会发生什么。
场景二:演示者展示了GPT-4o模型的实时语言翻译能力,比如用户说意大利语,GPT-4o能立即用英语解释出来。新模型让ChatGPT能够处理50种不同的语言,且有更强的记忆力。
与此同时,也让职场/职业教育有更大的想象空间,比如OpenAI官方公布了GPT-4o模拟面试的场景。
03应用全新视语能力
在OpenAI官方放出的视频中,GPT-4o还可以充当“石头剪刀布”的游戏的裁判,为人类增添了更多的乐趣。
此外,打开两个GPT-4o,它们还可以对话,唱歌。
GPT-4o最大的特点是实时交互,全新的语音、视觉交互能力得以重塑更多的场景,让体验更加丝滑。
根据介绍,MacOS 用户很快就可以下载 ChatGPT 桌面应用程序。OpenAI 表示,ChatGPT Plus 用户今天就可以访问该桌面应用程序,而其他免费和付费用户则有望“在未来几周内”访问该应用程序。
对于新产品,奥特曼在博客文章中提到:“这感觉就像电影中的人工智能一样,我仍然有点惊讶它是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的变化。”
虽然GPT-5没有发布,但是GPT-4o已经足够惊艳。
未来有很多事情可以做,比如说实时语音交互可以落地到各种智能硬件,翻译机、情感陪伴机器人等。
来源:元宇宙教育实验室、多知 编辑:徐航 校对:罗添 预审:施羽晗 终审:聂竹明