苹果的研究人员开发了一种名为 ReALM(Reference Resolution as Language Modeling)的人工智能系统,旨在根本改善语音助手理解和响应命令的方式。
在一篇研究论文中,苹果概述了一个新的系统,该系统涉及大型语言模型如何处理参考解析问题,其中包括解释对屏幕实体的模棱两可的引用,以及理解对话和背景上下文。因此,ReALM 可能导致与设备的交互更直观、更自然。
参考解析是自然语言理解的重要组成部分,使用户能够在对话中使用代词和其他间接引用而不引起混淆。对于数字助理来说,这种能力在历史上一直是一个重大挑战,受限于需要解释各种口头线索和视觉信息的需求。苹果的 ReALM 系统试图通过将参考解析的复杂过程转化为一个纯粹的语言建模问题来解决这个问题。通过这样做,它可以理解对屏幕上显示的视觉元素的引用,并将这种理解融入对话流程中。
ReALM 使用文本表示重构屏幕的视觉布局。这涉及解析屏幕实体及其位置,以生成捕捉屏幕内容和结构的文本格式。苹果的研究人员发现,结合了针对参考解析任务的语言模型的特定微调的这种策略,显著优于传统方法,包括 OpenAI 的 GPT-4 的能力。
ReALM 可能使用户能够更有效地与数字助手进行交互,参考的是当前屏幕上显示的内容,而无需精确、详细的说明。这有潜力在各种场景下使语音助手更加有用,例如帮助驾驶员在驾驶时导航信息娱乐系统,或通过提供更简单、更准确的间接交互方式来协助残障用户。
苹果现在已经发表了几篇人工智能研究论文。上个月,该公司揭示了一种新的训练大型语言模型的方法,该方法无缝地整合了文本和视觉信息。预计苹果将在 6 月的 WWDC 上推出一系列人工智能功能。
本文来自投稿,不代表TePhone特锋手机网立场,如若转载,请注明出处:https://www.tephone.com/article/19859