近日,一份苹果公司的新专利曝光,该专利与一个新的转录应用有关,更具体地说,与对话和环境转录的生成和协助有关。苹果公司的专利描述了生成转录和提供主动及被动的转录协助的技术。该应用程序将用于iDevices、Mac和苹果未来MR头显上的FaceTime通话或办公室电话会议。
苹果公司在其专利背景中指出,传统系统不能有效地根据这些转录内容提供主动和被动协助,这种系统也不能有效地根据对话背景或环境因素生成转录内容。例如,传统系统没有为用户提供有效的手段,使其能够根据特定的参数,如对话主题、环境条件等,快速审查转录的部分内容。这样的系统也没有根据用户的注意力状态为用户提供帮助,例如当用户从对话中分心时为用户提示等等。因此,需要一种用于转录和转录辅助的改进系统。
苹果公司的专利描述了生成转录和提供主动及被动转录协助的技术。
一般来说,转录可以帮助用户回顾和总结与对话或各方之间其他互动有关的信息。鉴于设备间对话交流的增加,以及此类设备上的技术进步,现在人们可以有效利用对话转录。
此外,各种技术可以有助于关于环境的有效翻译,例如与扩展现实或类似技术有关的环境。
总的来说,苹果公司的专利涵盖了转录和转录协助的系统和流程。例如,获得用户和至少一个对话参与者之间的对话文本表述。基于该文本表述,确定与该对话相关的内容,其中该内容包括用户的第一输入和至少一个对话参与者的第二输入中的至少一个。响应于该内容与预定义内容相关联的确定内容,基于该内容确定文本表示法的一部分。基于确定的部分,提供响应于第一输入和第二输入中至少一个的输出。
图源:patentlyapple
苹果公司的专利图8A/C/E说明了一个转录和转录辅助的过程。
更具体地说,苹果公司的专利图8A,说明了在一个用户和一个或多个其他用户之间设置了一个对话。该对话可以对应于语音通信(如电话),FaceTime电话会议,通过社交媒体平台的对话,以及在AR/VR环境下的对话。
例如,iPhone(电子设备#800)的用户可能正在与其他用户进行电话交谈。在对话进行的同时,可以获得对话的文字表述(例如,转录)。
这个应用程序的另一个特点可以包括一个提示,其中包括与对话的转录有关的各种选项。例如,该提示可进一步为参与者提供选项,以匿名或以其他方式修改或消除各参与者输入的识别信息,从而使获得的文本表示内容包括各参与者的修改输入。
修改后的对话文本表述可以包括各种修改,如匿名的用户名(例如,"用户A:你好"),修改后的文本表述也可以省略各种信息项目,如个人信息(例如,地址、电话号码、账户号码等)。
然后从与各参与者相关的设备中接收对所提供的提示的响应,包括可以批准转录、拒绝转录或以其他方式批准各参与者的修改版转录的响应。
转录的启动可以以各种方式发生。例如,在启动对话和向各用户发送转录批准提示之前,用户可以通过各种配置或设置来指示对转录对话的期望。
用户也可以在已经建立的对话中提供输入,例如,通过激活图8A中的活动通话屏幕上描绘的指示(图标)#802。在一些例子中,该图标可用于在活动呼叫屏幕和对话的文本表示(部分通过图8B讨论)之间切换,例如,当转录已经开始时。
在一些例子中,转录的启动可以根据各种背景信息发生。例如,对话的转录可因超过各自的阈值而启动,例如噪音阈值(如用户在拥挤的超市内进行视频通话)。
作为另一个例子,转录可以根据对各种触发词或短语的检测而启动。具体来说,参与对话的一个或多个用户可以说出一个短语,如 "你能重复一下吗?""再说一遍""那是什么?"等等。在一些例子中,触发词或短语可以对应于电子设备的用户开始转录的明确请求,如"现在开始转录"。
一般来说,可以向用户提供使用文本表示法的主动和被动协助,并且可以基于各种因素。参照图8B,在一些例子中,基于文本表示法识别与对话相关的内容,其中该内容包括来自iPhone用户和/或对话的其他参与者的一个或多个输入。这种输入通常可以触发来自iPhone(和/或与对话相关的其他设备)的反应性协助。
特别是,该输入可以对应于语音输入、文本输入、来自激活各种图标的输入、控制一个或多个辅助设备等。例如,用户可以激活一个静音按钮,在对话中分享各种媒体项目,控制虚拟环境中的虚拟对象,等等。
图源:patentlyapple
苹果公司的专利图9A-9B说明了一个转录和转录辅助的过程。在共处会话中(例如,在AR/VR环境中),各种对象或用户的虚拟化身可以围绕用户的观察视角移动,进入或退出环境。
MR头显内的FaceTime通话中的转录应用可以包括附加功能。例如,在专利图9A中,图像900可以对应于用户的客厅,该客厅实际位于乔治亚州的亚特兰大市。还可以获得与当前位置相对应的天气信息,如 "晴天+70度"。这可以在头显图像中说明正在与你交谈的人的情况。
在苹果公司的专利图9B中,可以检测到与表征#900相关的事件,如第三位用户进入环境。相应地,可以根据检测到的事件检索一套更新的标识符。例如,一个物理用户可以到达由#900表示的位置,例如通过走过#902门。
或者,用户可以进入虚拟会话(例如,使用呼入或登录信息),这样,与用户相关的头像就会显示在#900表示内。
想要了解更多详情,请查阅苹果公司的专利申请WO2022266209。
来源:patentlyapple