Siri助手
苹果公司开发的软件
Siri助手是 Speech Interpretation \u0026 Recognition 接口 的首字母缩写,原义为语音识别接口,是苹果公司IPhone、iPad、iPod Touch、HomePod、Apple Watch、Apple TV、Apple CarPlay等产品上应用的一个语音助手,利用Siri助手用户可以通过手机查找信息、拨打电话、发送信息、获取路线、播放音乐、查找苹果设备等。
Siri助手可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用,还能够不断学习新的声音和语调,提供对话式的应答。Siri助手可以令IPhone 4S及以上手机(iPad 3以上平板)变身为一台智能化机器人。
2016年6月14日,在苹果开发者大会WWDC发布了产品Siri助手的新功能。2017年的苹果开发者大会上,苹果公司宣布Siri助手完成版本更新,加入了实时翻译功能,支持英语、法语德语等语言。2021年6月8日,苹果公司在凌晨召开的2021苹果全球开发者大会(WWDC21)上宣布,苹果建立了“matter联盟”,符合这项家庭IP标准的第三方设备都能够接入旗下智能语音助手Siri助手进行设备控制。
研究背景
Siri助手成立于2007年,2010年被苹果公司以2亿美金收购,最初是以文字聊天服务为主,随后通过与全球最大的语音识别厂商Nuance合作,Siri助手实现了语音识别功能。
发展历程
2010年4月,苹果以超过2亿美元的价格收购了 Siri助手 。当时,Siri助手只有24名员工,但苹果很快扩充了Siri助手的核心团队人才。18个月后,Siri助手和 iPhone 4s一起推出,Siri助手 的团队已经发展到近100人。为确保 Siri助手 按时发布,该团队在Siri助手的最初构想上做了一些妥协,“人工智能应用商店”计划不得不搁置。史蒂夫·乔布斯希望,Siri助手 专注于一些只有苹果公司才能完全控制的技术。
2011年,库比蒂诺总部,苹果公司举办了 “Let’s talk IPhone” 新品发布会,Siri助手首次推出。
2017年的苹果开发者大会上,苹果公司宣布Siri助手完成版本更新,加入了实时翻译功能,支持英语、法语德语等语言。
2021年6月8日,WWDC21开发者大会上,苹果发布了 IOS 15/iPadOS 15 系统,Siri助手 默认会在设备上处理音频,可以在没有互联网连接的情况下使用该功能,这次升级还使 Siri助手 的反应更加灵敏。
2022年1月27日,苹果公司发布了15.3 更新,可用于HomePod和HomePodmini。苹果公司发布说明,此次更新新增了英语 (印度) 和意大利语 (意大利) 的 Siri助手 语音识别,支持识别一个家中的最多六名用户。本更新还包括性能和稳定性提升。
2023年6月6日,苹果在 WWDC2023开发者大会上,宣布唤醒 Siri助手 语音助手的唤醒词正式从“Hey Siri助手”,更改为“Siri助手”。
支持设备
IPhone、iPad、AirPods、HomePod、Apple Watch、Apple TV、CarPlay车载、麦金塔
实用技术
前端方面
在前端方面,即面向用户,和用户交互(User 接口,UI)的技术,主要是语音识别以及语音合成技术。语音识别技术是把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到所谓的“云计算”技术。而语音合成则是把返回的文字结果转化成语音输出。
后台技术
后台技术,目的是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构猜测可能是分析用户的输入,根据输入类型,分别采用合适的技术进行处理。这些合适的后台技术包括,①以谷歌 为代表的网页搜索技术;②以Wolfram Alpha为代表的知识搜索技术;③以维基百科 为代表的知识库技术;④以Yelp 为代表的问答以及推荐技术。
输入系统
Siri助手支持多模态输入,除去众所周知的语音输入,同时也支持用户文本输入、GU|界面触控操作等。
执行系统
可以细分为三个主要部件:语言解释器、会话流控制器和任务控制器。语言解释器将用户输入字符解析为语义表,语义表输入到会话流控制器,会话流控制器根据语义协同任务流控制器一起决定Siri助手下一 步应该做什么或者说什么。
服务系统
集成了苹果公司的多种服务,供Siri助手调用。
语音识别系统
语音唤醒被称之为keywordspotting(下文简称为KWS),即在连续语流中实时检测出说话人的特定片段,而这个特定片段就是唤醒词。通常来说,如果不是手动禁用语音助手,后者作为系统级服务会长时间驻留在后台,然而智能语音助手作为一个需要大量AI算力支撑的功能,在工作状态下需要不低的性能开销,同时也会相应的提升功耗。从“Hey Siri助手”到“Siri助手”,反映的是苹果公司语音识别技术上有了重大的突破。就像每个人都有自己的名字一样,智能语音助手其实也需要特定的词汇来让它知道用户是在喊自己。从某种程度上来说,唤醒词同时也是智能语音助手品牌形象的一大组成部分,通过每一次激活语音助手时说出的唤醒词,消费者关于这个品牌的记忆就在这样日复一日的复读中不断被强化。
活跃本体
Siri助手整个系统执行的具体环境和场所。
技术来源
Siri助手 技术来源于美国国防部高级研究规划局所公布的 CALO 计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件 Siri助手 虚拟个人助理。
功能
苹果公司搭载在iOS11上的Siri助手,新的Siri助手支持语言包括日语、意大利语、中国汉语、中国台湾地区、中国香港等地区的语言,Siri助手 的功能有电话和信息、知识和回答、智能家居、日常事务、导航和地图、音乐和播客、运动赛事。
当在日常生活中需要查找、了解或做些什么时,可以让Siri助手帮忙。用声音或按下按钮来唤醒Siri助手,然后说出需求。使用语音就能完成日常任务。使用Siri助手翻译语句、设定闹钟、查找位置、报告天气等。
2018年8月10日上午,苹果公司在《机器学习期刊》上发表了一篇论文,详细阐述了如何提升Siri助手识别企业和餐厅等本地兴趣点名称的方法。简单来说,苹果表示公司开发了一种定制语言模型,融合了用户所在地的知识,也就是所谓的Geo-LM,借此提升Siri助手的语音识别能力。这些模型让Siri助手可以更好地评估用户的发音内容。
生活百科
Siri可调用Wed搜索服务,在生活和工作中遇到各种问题都可以直接问Siri。
设置提醒
你可以直接跟Siri说:“提醒我明天晚上8点约了朋友吃饭”,又或者说:“一个小时后提醒我喝水”,Siri都能执行,比起手动添加提醒效率快。
时间助手
Siri可以帮助设置闹钟,也可以向其询问某地现在时间,和启动秒表计时等一切关于时间的控制。
识别音乐
Siri可以搜索正在播放的音乐,当你又不知道名称的音乐正在播出时,你可以唤醒Siri,问它这首音乐叫什么名字,很快它就会给出答案。
全能计算器
Siri是一个全能的计算器,除了基本的算术计算外,各种汇率、单位换算都支持,比如一美元等于多少日元、一公斤等于多少磅等等。
出行应用
iOS 10上苹果公司将Siri的权限开放给了开发者,因此很多应用都可以将Siri作为入口,此时你可以通过Siri滴滴打车,又或者在开车不方便操作手机时,直接通过Siri查找附近哪里有加油站、餐厅等。
寻找功能
使用Find My Friends这款应用,把你身边的亲朋好友添加进入,之后你就可以随时随地问Siri你的朋友现在在哪里,有长辈或者小孩的用户更加适用。
手机开关功能
可以直接叫Siri帮忙关闭WiFi、打开蓝牙、把音量调到最低等等的开关设置。
使用方法
iPhone
语音唤醒
只需说“Siri”或“嘿 Siri”,然后立即说出你的需求。在“设置”\u003e“Siri 与搜索”中设置 Siri 的唤醒方式,轻点“听取”,然后打开“Siri”或“嘿 Siri”。
按钮唤醒
如果 iPhone 带有主屏幕按钮,请按住主屏幕按钮,然后提出你的请求。如果iPhone没有主屏幕按钮,请按下侧边按钮按钮,然后提出你的请求。要提出更长的请求,请按住侧边按钮或主屏幕按钮,直到提完你的请求。
iPad
语音唤醒
只需说“Siri”或“嘿 Siri”,然后立即说出你的需求。
按钮唤醒
如果iPad带有主屏幕按钮,请按住主屏幕按钮,然后提出你的请求。如果iPad没有主屏幕按钮,请按住顶部按钮,然后提出你的请求。要提出更长的请求,请按住主屏幕按钮或顶部按钮,直到提完你的请求。
键入唤醒
打开“键入以使用 Siri”。然后,按下相应按钮以激活 Siri 并键入你的请求。
AirPods
语音唤醒
在佩戴AirPods Pro、AirPods Max或AirPods(第2代或更新机型)时,说“Siri”或“嘿 Siri”,然后立即说出你的需求。
轻按或轻点
对于AirPods Pro或AirPods(第3代),按住任意一只AirPod耳机柄上的力度感应器,然后提出你的请求。对于AirPods(第 1 代或第2代),在任意一只AirPod的外侧轻点两下,等待提示音,然后提出你的请求。对于AirPods Max,按住数码旋钮,然后提出你的请求。
Mac
语音唤醒
在受支持的Mac机型上,说“Siri”或“嘿 Siri”,然后提出你的请求。
按钮唤醒
在菜单栏或程序坞中,点按Siri按钮,然后说出你的需求。在配备触控栏的Mac上,轻点Siri按钮,然后说出你的请求。如果Apple键盘带有听写键,请按住听写键,然后提出你的请求。要提出更长的请求,请按住 Siri 按钮直到提完你的请求。
键入唤醒
启用“键入以使用Siri”。然后,按下或点按Siri按钮并键入你的请求。
Apple Watch
语音唤醒
注视Apple Watch或轻点屏幕。然后说“Siri”或“嘿 Siri”,接着提出你的请求。
抬腕对话
在Apple Watch Series 3或更新机型上,抬起手腕,将Apple Watch靠近你的嘴边,然后说出你的需求。
数码表冠
按住数码表冠,然后说出你的需求。要提出更长的请求,请按住数码表冠,直到提完你的请求。
HomePod
语音唤醒
只需说“Siri”* 或“嘿 Siri”,然后立即说出你的需求。
触摸唤醒
按住HomePod顶部,然后提出你的请求。要提出更长的请求,请按住HomePod顶部,直到提完你的请求。
Apple TV
你可以按住Siri Remote上的Siri按钮,说出你的需求,然后松开Siri按钮。
CarPaly
在支持车型carplay车载或Siri Eyes Free,你可以按住方向盘上的语音命令按钮,同时说出你的需求。
技术专利
2017年12月,据gizmodo报道,苹果公司又成功为 Siri 申请一个专利。该专利能够让 Siri 听到用户的耳语,并低声回复用户。从专利介绍图来看,该技术在声音传感器部分加上了一个耳语收声传感器,这个收声传感器可以收到周边分贝较低的声音。当Siri系统意识到用户是在低声询问时,其回答的声音也会随之降低。如果用户以正常声量和 Siri 聊天,Siri 的也会以正常声音回答。
2018年11月,苹果的一项名为“离线个人助理”的专利显示,该公司正在考虑为Siri加入离线模式,即便在没有网络的情况下,Siri也可以进行本地化工作。2018年11月Siri只支持在线模式,当IPhone用户使用Siri时,信息请求将被发送到苹果公司的服务器,并将其转换为文本;云端服务器在收到用户的信息后,做出响应,然后发送到用户的iPhone上。2018年的iPhone及iPad等苹果设备是没有单独处理语音识别处理的模块的。从苹果的新专利来看,苹果可能会在后续的iOS设备上新增语音处理模块,可以直接在iPhone等设备上进行智能处理,而不是依赖于服务器。这项专利申请提交于2017年9月,2018年11月由美国专利及商标局正式公布。
2019年11月14日,苹果公司提交的最新专利申请文件显示,会在未来版本的Siri或其他系统中添加面部分析功能,帮助Siri解读用户提出的请求。这意味着Siri将可能不局限于语音识别,在与用户对话时可启用FaceTime摄像头,分析用户面部表情及情绪。该专利实现的话,苹果公司的语音助手Siri不会局限于语音识别,在与用户对话时,它可以启用设备的FaceTime摄像头,来分析用户的面部表情和情绪。根据专利内容,在这套系统中,需要使用面部识别技术来识别用户身份,以便提供定制化的操作。
2023年1月,Siri新专利:借助AirPods运动传感器,训练“读取”唇语。苹果公司现有的 Siri 主要依赖扬声器,在听到“Hey Siri”、“Skip”或者“Next Song”等语音指令之后,可以执行相应的命令。而苹果在专利中概述了一种全新的监测方式,表示声音容易收到背景音等干扰,希望通过 AirPods 内置的陀螺仪或加速度计来记录微妙的面部运动,不仅可以减少耗电量和处理负担,而且可以提高准确度。
2023年4月,根据美国商标和专利局(美国专利及商标局)公示的清单,苹果获得了一项涉及Siri助手语音助手的技术专利,这项专利的名称为《可推荐联系人的助手》,目标是让IPhone、iPad上的语音助手Siri助手更加智能、更能理解用户的呼叫请求。苹果公司表示当前 Siri助手 能够响应用户的呼叫语音命令,实际场景中用户会使用昵称,或者只使用名、姓等少量联系人字段,以及相近发音的不同,会出现无法正确识别的情况。
支持语言
截至IOS6.1,Siri助手支持中文(普通话 - 中国),中文(粤语 - 中国香港),德语(德国),德文(瑞士),意大利文(意大利),意大利文(瑞士),日语,法文(加拿大),法文(法国),法文(瑞士)英文(澳大利亚),英文(美国),英文(英国),英文(澳大利亚),西班牙文(墨西哥),西班牙文(美国),西班牙文(西班牙)和韩语。
软件应用
2009年5月30日,在D7大会上,吉特拉斯发布了Siri助手,Siri助手整合一部分网络服务进入App Store,运行在iPhone 3GS上。2010年2月,带语音版本的Siri助手发布,免费提供3Gs手机下载。2011年10月,Siri助手随着IPhone 4S上市,谷歌趋势里“Siri助手”的关注指数直线上升。北京时间2011年10月5日凌晨该应用下架。
流量需求
设定闹铃或者向日历添加任务等简单任务每次将耗费40KB左右数据流量,Siri助手上网寻找问题答案每次将耗费100KB左右数据流量,使用Siri助手的听写功能,每条短信将耗费15KB数据流量,每封邮件将耗费75KB数据流量,每次任务的平均流量消耗为60KB,普通Siri助手用户每月将使用20MB流量。
产品争议
涉黄
2012年10月,有网友称IPhone手机的语音对话软件Siri助手可以提供“三陪”场所信息,这一说法引发舆论热议。调查发现,苹果公司提供的部分场所确有“涉黄”嫌疑。苹果公司回应称,Siri助手不能进行关键词屏蔽设置,但专家指出,苹果具有对敏感词进行特殊处理的设计,只是并未将上述内容列入屏蔽名单。到2012年10月28日,Siri助手不会再搜索“嫖娼”的场所了!苹果公司客服人员表示,已经将“三陪”信息列入屏蔽范围。Siri助手不再提供“三陪”场所的信息。对此,苹果公司客服人员称,根据用户的反映,也将“三陪”信息列入屏蔽范围;屏蔽范围除“三陪”等涉黄信息外,还包括涉及暴力等违反中国法律的信息。
考虑到这种信息为性交易提供便利,可能会危害社会秩序。而且,由于用户众多,潜在危害面也较大,苹果公司必须及时做出纠正,且职能部门可以出面进行监管。如果Siri助手提到的场所不是涉黄场所,苹果公司也可能要冒被这些场所民事诉讼法、索赔的风险。
泄密
苹果为Siri助手“窃听”风波公开道歉。有媒体报道称,苹果公司会有专门审查Siri助手语音记录的工作人员,在审查录音的过程中获得用户私人信息。2019年8月28日,苹果公司正式在其官网上致歉称,“我们知道客户近期一直为苹果人工审查Siri助手录音感到困扰,这是我们提高Siri助手使用质量的一部分,我们称之为‘评级’。当我们得知了用户的担忧之后,立即停止了所有人工对Siri助手的‘评级’的项目,并对所有的环节和政策进行了一个全面的评估。我们决定对Siri助手做一些改变。”苹果公司在其官网的博文中承诺,将减少从Siri助手语音记录中搜集到的用户数据,也不会将存储在服务器中的数据,作为销售用途。
2015年1月3日,苹果公司同意以9500万美元和解Siri语音助手侵犯了用户隐私的集体诉讼案。这份和解协议涵盖了2014年9月17日至2024年12月31日期间使用Siri的美国用户,涉及数千万人。每位参与诉讼的用户最多可为5台Siri设备申请赔偿,每台设备最高可获得20美元。同时,苹果公司需在六个月内永久删除2019年10月前收集的Siri个人音频记录。该案由加州北区联邦地区法院法官Jeffrey White负责审理。截至1月3日,该案需等待美国地区法官的批准。
相关事件
2012年6月份,智臻智能向法院提起侵权诉讼,认为苹果公司的Siri助手侵权其2004年申请过的专利“一种聊天机器人系统”。此后,双方围绕该专利是否有效进行诉讼。经过多次上诉和再审,8年后,法院终审判决确认该专利的有效性。至此,该诉讼的第一阶段告一段落。
随着上海智臻智能网络科技股份有限公司智能于2020年8月份发起新一轮诉讼,双方的纠纷也进入了第二阶段。智臻智能认为,IPhone智能语音系统Siri助手技术涉嫌侵犯该公司的智能语音系统小i机器人专利权,要求苹果公司公司停止Siri助手专利侵权,以及停止制造和销售侵权产品,暂计索赔金额100亿元。这一阶段,双方已先后经历6次开庭,而2023年5月5日将是双方迎来的第七次开庭。
2012年6月21日,小i机器人向上海市第一中级人民法院提起诉讼,状告苹果电脑贸易(上海)有限公司以及苹果公司专利侵权。这场专利官司至今已历8年。在公开审理进行的过程中,苹果向国家知识产权局专利复审委员会提起行政复议,请求宣告该专利无效。在经历了多次反复之后,最高人民法院在今年最终裁定,专利有效。这一诉讼结果的出炉,让小i机器人得以重启对苹果的专利侵权诉讼。2020年8月,国内人工智能技术公司小i机器人正式向上海市高级人民法院提起诉讼,要求苹果公司停止Siri助手(智能助理)专利侵权,并暂计索赔金额100亿元。苹果中国方面回应称,Siri助手 不包含其专利包括的特征,该专利与游戏和即时消息有关。
获得荣誉
参考资料
iPhone 使用手册.Apple 支持.2023-10-13
动口不动手 Siri技术大起底.中国知网.2023-10-13
Siri.Apple 官方网站.2023-10-12
iPhone 使用手册.Apple 支持.2023-10-13
iPhone 使用手册.Apple 支持.2023-10-14
目录
概述
研究背景
发展历程
支持设备
实用技术
前端方面
后台技术
输入系统
执行系统
服务系统
语音识别系统
活跃本体
技术来源
功能
生活百科
设置提醒
时间助手
识别音乐
全能计算器
出行应用
寻找功能
手机开关功能
使用方法
iPhone
语音唤醒
按钮唤醒
iPad
语音唤醒
按钮唤醒
键入唤醒
AirPods
语音唤醒
轻按或轻点
Mac
语音唤醒
按钮唤醒
键入唤醒
Apple Watch
语音唤醒
抬腕对话
数码表冠
HomePod
语音唤醒
触摸唤醒
Apple TV
CarPaly
技术专利
支持语言
软件应用
流量需求
产品争议
涉黄
泄密
相关事件
获得荣誉
参考资料