欢迎来到沈阳互联网
Time:

您的位置: 首页 >> 网络

解析谷歌亚马逊两强智能语音助理优势硬件软

2020.02.15 来源: 浏览:0次
解析谷歌、亚马逊两强智能语音助理优势、硬件、软件及发展趋势 http://www.50cnnet.com 物联中国
日期:2017-04-09 20:55:04来源:物联中国 点击:50 次 核心提示:科技产品的革新浪潮因为人工智能、深度学习、自然语言处理等等技术而再次启动,许多老企业新公司相继投入进行研发或推出各种产品与应用,也为新创团队创造许多加入市场的机会。

 科技产品的革新浪潮因为人工智能、深度学习、自然语言处理等等技术而再次启动,许多老企业新公司相继投入进行研发或推出各种产品与应用,也为新创团队创造许多加入市场的机会。参加竞赛是新创团队获取曝光、资金、辅导、专业咨询等等资源的场域,更有机会与大企业合作,做为信息通讯领域新创团队的推手之一, Mobileheros通讯大赛 已经举办了15年,更以促进新创意、新技术、新应用为出发点,召募众家好手参与竞赛,今年将鼓励团队运用各种人工智能技术,打造智能家居、智慧城市的装置及应用,让作品更有温度、更加人性化、更能聪明的满足使用者需求。

 人工智能的相关技术很多,其中智能语音助理因为 Amazon Alexa 已为许多硬件产品所用,具有 动口不动手 极为方便的使用方式,并与使用者的需求及工作、生活情境关联性强,因此本文以智能语音助理为主题,从说明亚马逊/Google两强优势开始,提供他山之石做为参考,并逐一解析硬件/软件技术及发展趋势,期待让有意参加2017年通讯大赛的团队获得启发,同时给任何想投入此领域的团队做为参考。

 从 Amazon Alexa 看智能助理的应用:智能助理高智商、数字服务一手包

 亚马逊Amazon的家用音乐播放器Echo依靠具备人工智能的Alexa,窜起成为数字家庭中枢,2017年CES几乎就是其主场,家电搭载Alexa瞬间智慧上身,从食衣住行到柴米油盐酱醋茶,俨然就是全能的智能小管家,其中核心的关键就在具备语意识别能力的自然语言处理技术,在使用各种数字服务时,可以动 口 不动手。

 Echo 于2016年在北美家庭掀起一波热潮,原本产品里小小的巧思-语音助理Alexa立了大功,也造就2017年初美国消费性电子展CES,没有参展的Amazon竟然大出风头。家用音乐播放器根本就是老掉牙的产品、数字语音助理也不是甚么新玩意,为什么竟能将早就被打入冷宫的数位家庭再度炒热?加入了人工智能(Artificial Intelligence, AI)、深度学习(Deep Learning)、自然语言处理(Natural Language Processing, NLP)的智能家居助理,可能会卷起下一波科技产业革命的大浪潮。

 从智能家居助理的功能与型态来看,硕网信息总经理邱仁钿指出,数字生活助理以Echo为例,可以协助人们处理所有可数字化的工作或服务,这部分装置可再延伸到像Pepper、Zenbo、RoBoHon、Kirobo Mini等具备移动能力,除了数字服务之外还提供学习或陪伴功能的机器人。另外,提供家事服务的扫地、拖地、擦玻璃、煮饭等无法数字化的服务,目前市面上已有多种单一服务的产品,但具备更智能化,可以处理复合式工作与突发状况的家事机器人则还需要至少五到十年后才会看到。

 ▲硕网科技总经理邱仁钿指出,智能助理可协助人们处理数字化的服务,提供更便利的生活质量。

 在语音识别与人工智能结合之后,利用语音指令操作硬设备出现重大突破。亚马逊在2014年底正式推出Echo声控扬声器,并可透过其内建的Alexa语音助理,为用户提供查询天气、订购商品、控制家中其他电器设备等种种应用服务。

 Echo推出后,不仅引发话题,更在消费市场上获得欢迎。据研究机构Consumer Intelligence Research Partners预估,自2014年底上市以来,Echo扬声器在美国已卖出超过510万台。由于Echo扬声器并非个人消费性电子产品,其销售型态比较接近一户一台,因此510万台这个数字已相当可观。

 有智慧的语音识别:Amazon、Google 两强相争

 就在Echo扬声器取得重大成功之后,同样在人工智能领域有深入布局的Google,在2016年底发表Google Home,该产品同样是搭载语音助理及人工智能的扬声器,与Echo在本质上并无太大差异。不过,由于Google本身已经有相当多样化的云端服务,因此Google Home所搭载的Google Assistant语音助理,未来很可能会与自家的其他服务进一步结合,以便满足消费者各式各样的需求。

 但亚马逊也不是省油的灯,或许是早已预料到其他大厂也将加入智能扬声器战局,该公司早在Echo推出后半年,便宣布将开放Alexa服务给其他开发商使用,同时还提供相关硬件开发工具包给其他公司,要借助生态系的力量来拉开与其他竞争平台的差距。截至目前为止,Alexa已经有上万项技能(Skills,类似智能型手机上的App)可供使用者下载,涵盖领域包含天气预报、新闻、家庭自动化控制、教育、运动健身等。

 ▲Echo扬声器所搭载的Alexa语音助理,已经成为一个庞大的生态系统。(数据源:亚马逊)

 硬件面:麦克风技术、语音讯号处理器商机涌现

 智能语音助理与硬件结合成为优秀的产品或服务,关键包括硬件、软件与云端。在硬件面,收音系统的设计涉及许多声学上的专业及复杂的算法,例如指向性收音、回音消除、背景噪音消除等。而在软件面,系统除了要听得懂各种自然语言外,还得考虑各地方腔调、习惯用语等变量,才能提供精准的识别结果,并进一步将其中的关键词萃取出来,转化成系统能理解的指令。

 智能扬声器的使用者体验好坏,主要涉及四大环节,分别是收音麦克风、语音处理器、语音识别引擎以及云端上各种应用服务。其中,收音麦克风的设计,是智能扬声器能否精准识别用户指令的第一道关卡。

 一般来说,驻极体麦克风(ECM)的讯噪比(SNR)是最好的,可达70dB以上。截至目前为止,专业录音室所使用的麦克风,基本上都还是ECM的天下。不过,微机电(MEMS)麦克风的讯噪比近年来也有显著改善,目前业界的水平可以做到64~65dB,与ECM的差距正在拉近。

 不过,ECM有一个先天的缺点,就是采用数组式设计时,ECM麦克风模块的组装加工较为困难,MEMS则没有这个问题,在大量生产时,加工相对简便。不过,MEMS麦克风先天上对低频的反应不如ECM麦克风,这也是应用开发商在选择麦克风组件时,必须特别注意的。

 因此,就智能扬声器应用来说,未来应该会是以MEMS麦克风为主流。毕竟,在采用数组式架构的前提下,MEMS麦克风有很明显的优势。目前市面上的智能扬声器,绝大多数都是采用数组式麦克风,例如中国科大讯飞和电商平台京东联合成立的灵隆科技,便推出了采用五颗麦克风的叮咚音箱,亚马逊的Echo则内建七颗麦克风(图 ),Google Home则只有两颗。

 ▲Echo扬声器顶端的周围与正中央,一共内建了七颗MEMS麦克风。(数据源:iFixit)

 在麦克风接收到声音讯号后,后续的噪音消除、回声消除、音源追踪、背景音消除等功能,原则上都是透过语音处理器搭配各种专用算法来实现,有些则可以透过更后段的语音识别引擎来处理。不管是微处理器(MPU)或数字信号处理器(DSP),都可以扮演语音处理器的角色。

 目前市场上最主要的语音处理器供货商,除了与亚马逊结盟的科胜讯(Connexant)之外,台湾本土IC设计公司骅讯、瑞昱、新唐也都有芯片解决方案。楼氏电子(Knowles)则为了强化其麦克风业务布局的完整性,购并了语音处理技术公司Audience。据了解,联发科内部也有一支研究团队正在研究相关题目,更有意要打进亚马逊供应链。

 事实上,语音处理器已经是相当成熟的技术,加上半导体效能飞快成长,就硬件的层面来说,针对一般应用,目前市面上有很多平价Cortex-M微控制器(MCU)或入门级DSP,都已经能扮演语音处理器的角色,差别仅在于各家厂商所开发的独特算法,可能在不同的特定情境有特殊优势;又或是某些针对高阶语音设备,例如远距会议设备所设计的专用芯片,以便执行一些非常复杂而特别的算法。

 认识语音识别技术:动口不动手 人机互动新革命

 在信息时代,人与机器沟通不脱I.O.P.S.(Input、Output、Processing、Storage),而在WinTel主流阶段,PC是最重要的信息设备,沟通工具是键盘与鼠标。进入移动通讯的时代,智能型手机是核心信息设备,沟通方式是触控,原则上人机沟通革新会朝简化与直觉的方向发展,也会带动一波新的软硬件商机;过去的我们就不仔细谈了,接下来这波革命,看起来具备人工智能的硬件(例如Echo)可能会是核心装置,人们只要透过语音就可以完成心中所想的工作,人机沟通方式再简化,而其具备的软硬件技术与带动的商机,正是这波浪潮的核心。

 语音人机互动的方式完全没有UI,邱仁钿表示,Alexa的语音分成两个部分,前段的语音识别与后段的语意理解,真正的人工智能是在后段。Echo唯一的关键词就是 Alexa ,所有的服务都由此启动,数据决策技术长尹相志说明,智能家居的人机互动以语音为核心,人工智能的语意理解在机器运算中都是用图像加上数学逻辑,西欧语系因为逻辑较为简单,加上由数十个字母,数百个词汇组成,深度学习技术已经可以破解,除了语音识别率高达95%~97%之外,解读语意并产生正确回复并不困难。

 ▲数据决策技术官尹相志说明,智能家居的人机互动以语音为核心,不过由于中文词汇数量繁多,且中英、中日语言用法夹杂关系,故中文版语音识别难度很高。

 早期的语音控制系统其实并不好用,使用者必须记住很多指令,而且要一字不差地念出那些指令,系统才会响应。不过,自然语言处理技术(Naturl Language Processing, NPL)取得重大进展,让使用者不用再背诵指令,可以用很自然、口语的方式表达其意图,识别引擎则从中提取出几个关键词,经过演算、拼凑后判断使用者意图,并执行相应的指令。

 相较之下,中文是目前还未被人工智能破解的语言,尹相志指出,中文字超过2万个,词汇超过百万,又可以任意组词产生新的意思,其中又有中英、中日夹杂的用法,加上网络流行的火星文,对机器来说不仅没有逻辑,也无法响应。因此,预计中文的智能家居助理最快要2~ 年后才可能问市。

 智能助理推动智能家居的发展:导入人工智能与平台化

 随着智能助理技术兴起,平台经济的发展变得更细致与多元,跨边界(双向循环)的平台经济将取代传统的单向/线性产业服务。基于此,不仅智能助理硬设备需持续发展演进,下一步则须强化家中联网设备与第三方服务商的连结性,以提供额外的加值服务。

 举例而言,Gartner(台湾地区)研究总裁蔡惠芬表示,2017年将会看到传统开发商为了增加其产品特性,将智能家居产品导入房屋设计中,尤其在中国,一些开发商甚至会将机器人导入房屋内,其中主要的诱因不单只是为了创造噱头,而是看中机器人背后所带出的服务商机,包含医疗、健康、安全甚至是购物等销售服务,而这也是开发商未来可以转型,提供一体式的产品服务契机,而非只销售卖一栋房屋就结束。

 ▲Gartner台湾研究总裁蔡惠芬表示,现已有越来越多中国开发商开始导入智能家居产品,其因在于中国开发商看中智能家居背后的服务应用商机。

 智能家居目前尚处于萌芽期,虽然联网问题已被解决,而底层的硬件成本也日趋下滑,但核心发展要素的汇整分析平台依旧还在破碎阶段,需历经三至五年时间才有望趋于完整,而这部分也是人工智能导入智能家居最具挑战之处。

 未来智能家居将朝向平台经济发展,其中,串联第三方服务则是必备条件,然而在此之中,由谁来划分拆帐机制、由谁管控服务质量依旧难以界定。换言之,在服务体系与机制尚未建立的情况下,平台经济发展备受挑战。现阶段,Amazon正积极布局第三方平台整合,故可看出Amazon平台的生态体系中,有很多家电公司、维修服务与加油站等各类公司。不过,智能家居在地化服务是核心要素之一,如何将智能家居机制与小区融合,与在地商业伙伴整合是非常重要的一环。

 现在智能家居发展主要重点,第一个是人工智能,以摆脱传统监看控制的角色,未来会有更多互动出现;再来,以前可能是针对家中装置控制为主,之后可能会朝向提供与家庭有关的各式各样服务,以家庭为核心,将服务范围扩散到家庭以外的地方,除了与家电的互动,还包括了各式物联网终端。

 生态体系的服务整合平台部分,都是透过智能家居助理的语音服务,建立的生态体系而非单一产品。未来,在智能家居环境中,最后赚钱的利基市场必为后端服务平台,其中包含家电与电商产业,看中的非硬件,而是最后应用服务为导向的市场。

 将各式各样的智慧应用服务带入家庭,可说是科技产业追逐已久的大梦,但要如何让使用者与机器设备自然地互动,却是人因工程上的大挑战。就人类的角度,最终极的人机接口应该是用意念来对机器下达指令,但目前相关技术还在基础研究阶段,短期内很难看到商品化的机会;动口不动手,用自然语言来传达指令,则是次佳的解答。但这项功能在硬件和软件方面,都有很大的技术挑战。

 有鉴于此,如何建立生态体系是很重要的,或者是在某一个生态体系中扮演关键角色,我们在这个趋势下应该思考建立自己的平台,不是要自外于国际趋势或主流平台之外,而是避免过去电商发展的前车之鉴,将相关活动所产生的有价值的金流、信息流等留在岛内,强化台湾特色,透过整体性的思考产生灵活的策略,例如利用台湾硬件技术优势,投入关键零组件研发,掌握蓝海商机,此为后续布局智能家居所需审慎思考的问题。

 他山之石:以2016年通讯大赛的得奖作品为参考对象

 本文以智能语音助理为主题,一个重要原因是其与各种硬件的整合性强,从Amazon Echo即可获得印证,在此以2016年通讯大赛的得奖作品为例,这些作品如果加上智能语音助理将可更加人性化,让使用者透过类似日常聊天的方式启动所需功能,还可因为链接云端服务而获得更多应用功能,就像 Amazon Alexa 的技能。这些作品提供给有意参加2017年通讯大赛的团队参考。

 一、居家照顾智能助理系统

 失能者和幼童需要他人帮忙照料日常生活,但我们发现居家照顾人员过劳、心理压力大;外籍照顾人员因语言不通影响照顾质量,所以我们实作了一套 居家照顾智能助理系统 ,实验结果显示本系统能够有效守护失能者和幼童,试用者的反馈意见也显示本系统的效用显著。 利用智慧科技协助居家监控、室内防走失、户外防走失、寻人导航等等来减轻照顾人员的负担,并增加其喘息机会,让家属更为放心的将失能者或幼童托付给照顾人员。借助预备讯息和计算机信息系统的辅助,让外籍照顾人员可以紧急求救、找路人帮忙、看诊挂号、喘息服务申请,解决语言不通问题。作品已解决走失警示和语言不通问题,共有三项发明专利审查或申请中,期待成为照顾者的最佳助理。

 二、PARKCUL停车接龙

 找车位利器来了!针对现有停车格之运用以及时间控管并无效率,设计出 停车接龙 概念,内涵为车位预约与停车是一个不断循环的接龙状态,让车主利用APP透过物联网搜寻附近闲置之停车格,预约车位、进行配对、设定停车时间,并利用车挡阻止其余车辆进行停车,当车子靠近该车位时,车挡上装设的Beacon感应到便会自动下降让驾驶者停入,有效节省时间。一般停车位App主要为寻找车位功能,但并没有保留车位的服务,本作品创新之处为确实帮预定车位的驾驶保留他的车位。若使用停车位的车辆超过时间,后一位预定车主可立即通报服务中心,进行拖吊,并给予违规车主不良纪录,若超过规定次数,则禁止违规车主使用此服务。 PARKCUL停车接龙 能够减少使用者寻找停车位所排放的废气,节省时间并且达到环境保护的效果。

 三、TYTO Helmet

 TYTO是一种猫头鹰。我们打造的智能型安全帽,能让机车骑士拥有更全面的影像,主动避让后方可能造成危险的行人或车辆,就像是视力很好的猫头鹰,并延伸为无时无刻守护行车安全的个人助理。本作品针对几个痛点做解决:

 (1)塞车问题:透过收集足够数量的GPS资料,取得车辆行驶的位置及速度,并统计分析这些数据,借以预测某些时段的路况,主动规划出最快到达的路线。

 (2) 行车时必须低头判读车速及导航路线的危险行为:提供高速移动中驾驶所需之行车信息。手机透过蓝牙连接车上的OBD,来取得车速、油耗等信息,并透过我们的装置将手机导航等画面直接投影在驾驶前方的挡风玻璃。

 ( )使用手机的问题:我们打造了一个TYTO 行车助理APP,支持语音、手势操作并同步手机信息,来协助驾驶处理更多日常生活中的事情。

 四、eyeGo盲人优购

  eyeGo盲人优购 专为视障者而设计,经过访谈后发现,视障者希望大家不要觉得他们 不一样 ,并渴望能够享受自主购物的乐趣。 eyeGo盲人优购 系统包含 eyeGo+ 穿戴式装置,提供以下功能:

 (1)靠近智能货架时告知商品信息。

 (2)主动扫描信息给予语音回馈,让用户安心选取所需商品。

 ( )快速识别商品,让视障者得知商品信息。

 (4) 结账时免现金,直接由eyeGo支付系统。

 (5)选购完成后在一小时内送到家,省去提物重物还要步行回家的困扰。购物商场配合使用eyeGo智能物联销售系统,功能包括移动辅助装置、智能货架、现金流交易、物流控管。 本作品以门牌号码为依据的户外导航技术,结合智慧室内导航技术,让视障者享受到科技带来的新体验,我们希望让视障者不受限于眼睛的不便,也能享受到自主购物的乐趣。

 五、个人日常作息分析与家庭医师平台

 许多青壮年工作时间与长辈生活作息相互错开或分开居住,长辈年纪大了,如果没住在一起怎么进行照顾?我们推出 个人日常作息分析与家庭医师平台 ,包含随身装置、感应主机与手机APP,受照顾者配戴随身装置,可以做到警示、离床通报、门禁通报、追踪、用药提醒,接下来还会整合医师数据与送餐服务。使用者可由APP完全了解长辈的生活作息,还能知道长辈到哪里去了,亦可联系周边家庭医师与特殊病患送餐服务(例如糖尿病患者),对于在家赡养的使用者来说,可让家庭单一照顾者变为群组照顾者,降低照顾者的压力,也可以让照顾者正常安心工作。对照顾机构来说,将赡养院或医院人工记录作息改为自动化大数据智能分析,是本作品创新之处。

 六、Voice-HomeAgent

 我们发现物联网智能家电的遥控还不够便利,装置众多,整合接口繁杂,而手势动作识别也面临手势众多不易记住的问题。我们提出的解决方案 Voice-HomeAgent 是声控+手机+蓝牙耳机,针对整个使用流程重新设计,以蓝牙为整个传输的通讯标准,并且以手机为声控中心透过声音控制家电用品。以手机当成声控中心,经蓝牙联机物联网家电,当此声控中心不在身边之际,蓝牙耳机可接收讲话语音,经声控中心识别成指令,再发送指令声控单一物联网家电,甚至群组化家电统一声控。当声控中心为接收来电状态时,借助蓝牙耳机将来电现况由文字转语音告知是否为诈骗电话、来电者是谁或讯息语音等附加价值。

 七、智能路边停车格导引系统

 驾驶人很难事先得知哪里有空的路边停车位,用巡绕的方式碰运气很浪费时间。我们提出 智能路边停车格导引系统 来解决问题,首先在路边停车格上安装车辆停放传感器(地雷式),它会侦测停放状况并透过LoRa长距通讯模块回报给基地台及云端做处理,接着用户借助移动装置上的CityPark APP做实时闲置车位查询并导引使用者至该车位。我们以CityPark命名代表着以整个城市为使用场域,让你不再和停车格擦肩而过。CityPark具备了以下特点:长距离、高穿透,低功耗、城市级场域、跨平台技术、高强度需求、良好UX的APP,并符合目前世界智慧城市设计应用潮流。系统会过数据分析使用率来决定收费价格,有助于舒缓交通及分散停车格的使用。

 八、智能盆栽

 老人从不会种植到开始种植会遇到很多难题,根据与多位银发族的访谈,将近九成的人在第一次接触种植之后,因为无法解决种植时的难题而放弃。我们推出实体的 智能盆栽 ,它内建屏幕,也有摄影、录音功能,配合屏幕上的按钮,按下我要发问即可开始录下问题,按下相机钮即可拍摄现在植物的状况。让老人在家里透过语音方式进行植物种植的发问,透过产品的实虚整合,将语音转成文字,以文字的形式将长者提出的问题发布至网络上专业种植社群,由社群中的成员以文字回答,透过产品的后台技术,将网络上的文字转成语音,借助实体的智能盆栽以语音的方式发布,让银发族可以借助 听 来获得解答,在家就可以解决种植时的难题。

青海治疗男科医院
石家庄十佳癫痫病医院
他达拉非每日一次
Tags:
友情链接
沈阳互联网