Siri助手是 Speech Interpretation \u0026 Recognition
接口 的首字母缩写,原义为语音识别接口,是
苹果公司在
IPhone、iPad、iPod Touch、HomePod、
Apple Watch、Apple TV、Apple CarPlay等产品上应用的一个语音助手,利用Siri助手用户可以通过手机查找信息、拨打电话、发送信息、获取路线、播放音乐、查找苹果设备等。
Siri助手可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用,还能够不断学习新的声音和语调,提供对话式的应答。Siri助手可以令
IPhone 4S及以上手机(iPad 3以上平板)变身为一台智能化机器人。
2016年6月14日,在苹果开发者大会WWDC发布了产品Siri助手的新功能。2017年的苹果开发者大会上,苹果公司宣布Siri助手完成版本更新,加入了实时翻译功能,支持英语、
法语、
德语等语言。2021年6月8日,苹果公司在凌晨召开的2021苹果全球开发者大会(WWDC21)上宣布,苹果建立了“matter联盟”,符合这项家庭IP标准的第三方设备都能够接入旗下智能语音助手Siri助手进行设备控制。
研究背景
Siri助手成立于2007年,2010年被
苹果公司以2亿美金收购,最初是以文字聊天服务为主,随后通过与全球最大的语音识别厂商Nuance合作,Siri助手实现了语音识别功能。
发展历程
2010年4月,苹果以超过2亿美元的价格收购了 Siri助手 。当时,Siri助手只有24名员工,但苹果很快扩充了Siri助手的核心团队人才。18个月后,Siri助手和 iPhone 4s一起推出,Siri助手 的团队已经发展到近100人。为确保 Siri助手 按时发布,该团队在Siri助手的最初构想上做了一些妥协,“
人工智能应用商店”计划不得不搁置。
史蒂夫·乔布斯希望,Siri助手 专注于一些只有
苹果公司才能完全控制的技术。
2011年,
库比蒂诺总部,苹果公司举办了 “Let’s talk
IPhone” 新品发布会,Siri助手首次推出。
2017年的苹果开发者大会上,苹果公司宣布Siri助手完成版本更新,加入了实时翻译功能,支持英语、
法语、
德语等语言。
2021年6月8日,WWDC21开发者大会上,苹果发布了
IOS 15/iPadOS 15 系统,Siri助手 默认会在设备上处理音频,可以在没有互联网连接的情况下使用该功能,这次升级还使 Siri助手 的反应更加灵敏。
2022年1月27日,
苹果公司发布了15.3 更新,可用于HomePod和HomePodmini。苹果公司发布说明,此次更新新增了英语 (印度) 和
意大利语 (意大利) 的 Siri助手 语音识别,支持识别一个家中的最多六名用户。本更新还包括性能和稳定性提升。
2023年6月6日,苹果在 WWDC2023开发者大会上,宣布唤醒 Siri助手 语音助手的唤醒词正式从“Hey Siri助手”,更改为“Siri助手”。
支持设备
IPhone、iPad、AirPods、HomePod、
Apple Watch、Apple TV、CarPlay车载、
麦金塔。
实用技术
前端方面
在前端方面,即面向用户,和用户交互(User
接口,UI)的技术,主要是语音识别以及
语音合成技术。
语音识别技术是把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到所谓的“云计算”技术。而语音合成则是把返回的文字结果转化成语音输出。
后台技术
后台技术,目的是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构猜测可能是分析用户的输入,根据输入类型,分别采用合适的技术进行处理。这些合适的后台技术包括,①以
谷歌 为代表的网页搜索技术;②以
Wolfram Alpha为代表的知识搜索技术;③以
维基百科 为代表的知识库技术;④以
Yelp 为代表的问答以及推荐技术。
输入系统
Siri助手支持多模态输入,除去众所周知的语音输入,同时也支持用户文本输入、GU|界面触控操作等。
执行系统
可以细分为三个主要部件:语言解释器、会话流控制器和任务控制器。语言解释器将用户输入字符解析为语义表,语义表输入到会话流控制器,会话流控制器根据语义协同任务流控制器一起决定Siri助手下一 步应该做什么或者说什么。
服务系统
语音识别系统
语音唤醒被称之为keywordspotting(下文简称为KWS),即在连续语流中实时检测出说话人的特定片段,而这个特定片段就是唤醒词。通常来说,如果不是手动禁用语音助手,后者作为系统级服务会长时间驻留在后台,然而智能语音助手作为一个需要大量AI算力支撑的功能,在工作状态下需要不低的性能开销,同时也会相应的提升功耗。从“Hey Siri助手”到“Siri助手”,反映的是
苹果公司在
语音识别技术上有了重大的突破。就像每个人都有自己的名字一样,智能语音助手其实也需要特定的词汇来让它知道用户是在喊自己。从某种程度上来说,唤醒词同时也是智能语音助手品牌形象的一大组成部分,通过每一次激活语音助手时说出的唤醒词,消费者关于这个品牌的记忆就在这样日复一日的复读中不断被强化。
活跃本体
Siri助手整个系统执行的具体环境和场所。
技术来源
Siri助手 技术来源于
美国国防部高级研究规划局所公布的 CALO 计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件 Siri助手 虚拟个人助理。
功能
苹果公司搭载在iOS11上的Siri助手,新的Siri助手支持语言包括
日语、意大利语、中国汉语、中国台湾地区、中国香港等地区的语言,Siri助手 的功能有电话和信息、知识和回答、智能家居、日常事务、导航和地图、音乐和播客、运动赛事。
当在日常生活中需要查找、了解或做些什么时,可以让Siri助手帮忙。用声音或按下按钮来唤醒Siri助手,然后说出需求。使用语音就能完成日常任务。使用Siri助手翻译语句、设定闹钟、查找位置、报告天气等。
2018年8月10日上午,
苹果公司在《机器学习期刊》上发表了一篇论文,详细阐述了如何提升Siri助手识别企业和餐厅等本地兴趣点名称的方法。简单来说,苹果表示公司开发了一种定制语言模型,融合了用户所在地的知识,也就是所谓的Geo-LM,借此提升Siri助手的语音识别能力。这些模型让Siri助手可以更好地评估用户的发音内容。
生活百科
Siri可调用Wed搜索服务,在生活和工作中遇到各种问题都可以直接问Siri。
设置提醒
你可以直接跟Siri说:“提醒我明天晚上8点约了朋友吃饭”,又或者说:“一个小时后提醒我喝水”,Siri都能执行,比起手动添加提醒效率快。
时间助手
Siri可以帮助设置闹钟,也可以向其询问某地现在时间,和启动秒表计时等一切关于时间的控制。
识别音乐
Siri可以搜索正在播放的音乐,当你又不知道名称的音乐正在播出时,你可以唤醒Siri,问它这首音乐叫什么名字,很快它就会给出答案。
全能计算器
Siri是一个全能的计算器,除了基本的算术计算外,各种汇率、单位换算都支持,比如一美元等于多少
日元、一公斤等于多少磅等等。
出行应用
iOS 10上
苹果公司将Siri的权限开放给了开发者,因此很多应用都可以将Siri作为入口,此时你可以通过Siri滴滴打车,又或者在开车不方便操作手机时,直接通过Siri查找附近哪里有加油站、餐厅等。
寻找功能
使用Find My Friends这款应用,把你身边的亲朋好友添加进入,之后你就可以随时随地问Siri你的朋友现在在哪里,有长辈或者小孩的用户更加适用。
手机开关功能
可以直接叫Siri帮忙关闭WiFi、打开蓝牙、把音量调到最低等等的开关设置。
使用方法
iPhone
语音唤醒
只需说“Siri”或“嘿 Siri”,然后立即说出你的需求。在“设置”\u003e“Siri 与搜索”中设置 Siri 的唤醒方式,轻点“听取”,然后打开“Siri”或“嘿 Siri”。
按钮唤醒
如果 iPhone 带有主屏幕按钮,请按住主屏幕按钮,然后提出你的请求。如果iPhone没有主屏幕按钮,请按下侧边按钮按钮,然后提出你的请求。要提出更长的请求,请按住侧边按钮或主屏幕按钮,直到提完你的请求。
iPad
语音唤醒
只需说“Siri”或“嘿 Siri”,然后立即说出你的需求。
按钮唤醒
如果iPad带有主屏幕按钮,请按住主屏幕按钮,然后提出你的请求。如果iPad没有主屏幕按钮,请按住顶部按钮,然后提出你的请求。要提出更长的请求,请按住主屏幕按钮或顶部按钮,直到提完你的请求。
键入唤醒
打开“键入以使用 Siri”。然后,按下相应按钮以激活 Siri 并键入你的请求。
AirPods
语音唤醒
在佩戴AirPods Pro、AirPods Max或AirPods(第2代或更新机型)时,说“Siri”或“嘿 Siri”,然后立即说出你的需求。
轻按或轻点
对于AirPods Pro或AirPods(第3代),按住任意一只AirPod耳机柄上的力度感应器,然后提出你的请求。对于AirPods(第 1 代或第2代),在任意一只AirPod的外侧轻点两下,等待提示音,然后提出你的请求。对于AirPods Max,按住数码旋钮,然后提出你的请求。
Mac
语音唤醒
在受支持的Mac机型上,说“Siri”或“嘿 Siri”,然后提出你的请求。
按钮唤醒
在菜单栏或程序坞中,点按Siri按钮,然后说出你的需求。在配备触控栏的Mac上,轻点Siri按钮,然后说出你的请求。如果Apple键盘带有听写键,请按住听写键,然后提出你的请求。要提出更长的请求,请按住 Siri 按钮直到提完你的请求。
键入唤醒
启用“键入以使用Siri”。然后,按下或点按Siri按钮并键入你的请求。
Apple Watch
语音唤醒
注视Apple Watch或轻点屏幕。然后说“Siri”或“嘿 Siri”,接着提出你的请求。
抬腕对话
在Apple Watch Series 3或更新机型上,抬起手腕,将Apple Watch靠近你的嘴边,然后说出你的需求。
数码表冠
按住数码表冠,然后说出你的需求。要提出更长的请求,请按住数码表冠,直到提完你的请求。
HomePod
语音唤醒
只需说“Siri”* 或“嘿 Siri”,然后立即说出你的需求。
触摸唤醒
按住HomePod顶部,然后提出你的请求。要提出更长的请求,请按住HomePod顶部,直到提完你的请求。
Apple TV
你可以按住Siri Remote上的Siri按钮,说出你的需求,然后松开Siri按钮。
CarPaly
在支持车型
carplay车载或Siri Eyes Free,你可以按住方向盘上的语音命令按钮,同时说出你的需求。
技术专利
2017年12月,据gizmodo报道,
苹果公司又成功为 Siri 申请一个专利。该专利能够让 Siri 听到用户的耳语,并低声回复用户。从专利介绍图来看,该技术在声音传感器部分加上了一个耳语收声传感器,这个收声传感器可以收到周边分贝较低的声音。当Siri系统意识到用户是在低声询问时,其回答的声音也会随之降低。如果用户以正常声量和 Siri 聊天,Siri 的也会以正常声音回答。
2018年11月,苹果的一项名为“离线个人助理”的专利显示,该公司正在考虑为Siri加入离线模式,即便在没有网络的情况下,Siri也可以进行本地化工作。2018年11月Siri只支持在线模式,当
IPhone用户使用Siri时,信息请求将被发送到
苹果公司的服务器,并将其转换为文本;云端服务器在收到用户的信息后,做出响应,然后发送到用户的iPhone上。2018年的iPhone及iPad等苹果设备是没有单独处理语音识别处理的模块的。从苹果的新专利来看,苹果可能会在后续的iOS设备上新增
语音处理模块,可以直接在iPhone等设备上进行智能处理,而不是依赖于服务器。这项专利申请提交于2017年9月,2018年11月由
美国专利及商标局正式公布。
2019年11月14日,
苹果公司提交的最新专利申请文件显示,会在未来版本的Siri或其他系统中添加面部分析功能,帮助Siri解读用户提出的请求。这意味着Siri将可能不局限于语音识别,在与用户对话时可启用
FaceTime摄像头,分析用户面部表情及情绪。该专利实现的话,苹果公司的语音助手Siri不会局限于语音识别,在与用户对话时,它可以启用设备的FaceTime摄像头,来分析用户的面部表情和情绪。根据专利内容,在这套系统中,需要使用面部识别技术来识别用户身份,以便提供定制化的操作。
2023年1月,Siri新专利:借助AirPods运动传感器,训练“读取”唇语。
苹果公司现有的 Siri 主要依赖扬声器,在听到“Hey Siri”、“Skip”或者“Next Song”等语音指令之后,可以执行相应的命令。而苹果在专利中概述了一种全新的监测方式,表示声音容易收到背景音等干扰,希望通过 AirPods 内置的陀螺仪或加速度计来记录微妙的面部运动,不仅可以减少耗电量和处理负担,而且可以提高准确度。
2023年4月,根据美国商标和专利局(
美国专利及商标局)公示的清单,苹果获得了一项涉及Siri助手语音助手的技术专利,这项专利的名称为《可推荐联系人的助手》,目标是让
IPhone、iPad上的语音助手Siri助手更加智能、更能理解用户的呼叫请求。
苹果公司表示当前 Siri助手 能够响应用户的呼叫语音命令,实际场景中用户会使用昵称,或者只使用名、姓等少量联系人字段,以及相近发音的不同,会出现无法正确识别的情况。
支持语言
截至IOS6.1,Siri助手支持中文(普通话 - 中国),中文(
粤语 - 中国香港),
德语(德国),德文(瑞士),
意大利文(意大利),意大利文(瑞士),
日语,法文(
加拿大),法文(法国),法文(瑞士)英文(
澳大利亚),英文(美国),英文(英国),英文(澳大利亚),
西班牙文(
墨西哥),西班牙文(美国),西班牙文(西班牙)和韩语。
软件应用
2009年5月30日,在D7大会上,吉特拉斯发布了Siri助手,Siri助手整合一部分网络服务进入App Store,运行在iPhone 3GS上。2010年2月,带语音版本的Siri助手发布,免费提供3Gs
手机下载。2011年10月,Siri助手随着
IPhone 4S上市,
谷歌趋势里“Siri助手”的关注指数直线上升。北京时间2011年10月5日凌晨该应用下架。
流量需求
设定闹铃或者向日历添加任务等简单任务每次将耗费40KB左右数据流量,Siri助手上网寻找问题答案每次将耗费100KB左右数据流量,使用Siri助手的听写功能,每条短信将耗费15KB数据流量,每封邮件将耗费75KB数据流量,每次任务的平均流量消耗为60KB,普通Siri助手用户每月将使用20MB流量。
产品争议
涉黄
2012年10月,有网友称
IPhone手机的语音对话软件Siri助手可以提供“三陪”场所信息,这一说法引发舆论热议。调查发现,
苹果公司提供的部分场所确有“涉黄”嫌疑。苹果公司回应称,Siri助手不能进行关键词屏蔽设置,但专家指出,苹果具有对敏感词进行特殊处理的设计,只是并未将上述内容列入屏蔽名单。到2012年10月28日,Siri助手不会再搜索“嫖娼”的场所了!苹果公司客服人员表示,已经将“三陪”信息列入屏蔽范围。Siri助手不再提供“三陪”场所的信息。对此,苹果公司客服人员称,根据用户的反映,也将“三陪”信息列入屏蔽范围;屏蔽范围除“三陪”等涉黄信息外,还包括涉及暴力等违反中国法律的信息。
考虑到这种信息为性交易提供便利,可能会危害社会秩序。而且,由于用户众多,潜在危害面也较大,
苹果公司必须及时做出纠正,且职能部门可以出面进行监管。如果Siri助手提到的场所不是涉黄场所,苹果公司也可能要冒被这些场所
民事诉讼法、索赔的风险。
泄密
苹果为Siri助手“窃听”风波公开道歉。有媒体报道称,苹果公司会有专门审查Siri助手语音记录的工作人员,在审查录音的过程中获得用户私人信息。2019年8月28日,苹果公司正式在其官网上致歉称,“我们知道客户近期一直为苹果人工审查Siri助手录音感到困扰,这是我们提高Siri助手使用质量的一部分,我们称之为‘评级’。当我们得知了用户的担忧之后,立即停止了所有人工对Siri助手的‘评级’的项目,并对所有的环节和政策进行了一个全面的评估。我们决定对Siri助手做一些改变。”
苹果公司在其官网的博文中承诺,将减少从Siri助手语音记录中搜集到的用户数据,也不会将存储在服务器中的数据,作为销售用途。
2015年1月3日,苹果公司同意以9500万美元和解Siri语音助手侵犯了用户隐私的集体诉讼案。这份和解协议涵盖了2014年9月17日至2024年12月31日期间使用Siri的美国用户,涉及数千万人。每位参与诉讼的用户最多可为5台Siri设备申请赔偿,每台设备最高可获得20美元。同时,
苹果公司需在六个月内永久删除2019年10月前收集的Siri个人音频记录。该案由加州北区联邦地区法院法官Jeffrey White负责审理。截至1月3日,该案需等待美国地区法官的批准。
相关事件
2012年6月份,智臻智能向法院提起侵权诉讼,认为苹果公司的Siri助手侵权其2004年申请过的专利“一种聊天机器人系统”。此后,双方围绕该专利是否有效进行诉讼。经过多次上诉和再审,8年后,法院终审判决确认该专利的有效性。至此,该诉讼的第一阶段告一段落。
随着
上海智臻智能网络科技股份有限公司智能于2020年8月份发起新一轮诉讼,双方的纠纷也进入了第二阶段。智臻智能认为,
IPhone智能语音系统Siri助手技术涉嫌侵犯该公司的智能语音系统小i机器人专利权,要求
苹果公司公司停止Siri助手专利侵权,以及停止制造和销售侵权产品,暂计索赔金额100亿元。这一阶段,双方已先后经历6次开庭,而2023年5月5日将是双方迎来的第七次开庭。
2012年6月21日,小i机器人向
上海市第一中级人民法院提起诉讼,状告
苹果电脑贸易(上海)有限公司以及苹果公司专利侵权。这场专利官司至今已历8年。在公开审理进行的过程中,苹果向
国家知识产权局专利复审委员会提起
行政复议,请求宣告该专利无效。在经历了多次反复之后,最高人民法院在今年最终裁定,专利有效。这一诉讼结果的出炉,让小i机器人得以重启对苹果的专利侵权诉讼。2020年8月,国内人工智能技术公司小i机器人正式向上海市高级人民法院提起诉讼,要求
苹果公司停止Siri助手(智能助理)专利侵权,并暂计索赔金额100亿元。苹果中国方面回应称,Siri助手 不包含其专利包括的特征,该专利与游戏和即时消息有关。
获得荣誉
参考资料
Siri.Apple 官方网站.2023-10-12