阿里今年宣布投资100亿元,来全面布局AIoT和创建内容生态,此举让这个智能家居领域的明星产品更受瞩目。仅仅数月时间,这个砸下重金的“小精灵”便以全新面目示人,装载了全新的系统AliGenie5.0。
电池升级,场景拓展
这次系统率先升级的主要是三款产品:天猫精灵CC10电池版、天猫精灵CC MINI和IN糖2智能像素屏音箱,我们首先入手的还是把玩过很多次的天猫精灵CC10电池版。
比起之前的天猫精灵CC10,天猫精灵CC10电池版家庭智慧屏最大的提升便是植入了一块5000mAh超大电芯,可贵的是,整个体积没有丝毫变化,后仰式L形造型灵动稳重,也非常节省占地空间。电池的植入,让这款智能家居的交互入口不再惧怕停电的困扰,在全屋移动使用的特性也大大扩展了它的应用场景。
当这款产品第一次进入家庭后,儿子首先便把它抱到浴缸旁看动画片,害我好一阵叮嘱:“天猫精灵不能沾水哦。”不知道我的用户反馈是否会被天猫精灵开发团队注意到,开发出防水的智能音箱,不过这样的需求明显会很受孩子们的欢迎。
加入电池后使得天猫精灵CC10的随身属性大大提升,对于很多人来说这都是个很实用的“技能”,作为家庭助手,它能够在从书房到卧室的过程中依旧实现全程控制,也可以在厨房或餐桌上成为主妇的最爱,不论何处都能满足全家人的交互所需,而且还具备一定的户外属性。比如在郊外远足或驾车旅行时,借助手机热点,天猫精灵依旧可以全天候地收看丰富的内容资源。而且其大电池的设计完全可以轻松满足数小时的影片观看。
从个人需求来看,基本上一个家庭对应一台天猫精灵CC10电池版就能满足所有应用。当然,宝妈宝爸们也可以再添置一台CC MINI或IN糖2在儿童房里,作为孩子的长期伙伴。
更具亲和力的新交互方式
之前聊过,天猫精灵一直拥有第一的市场占有率,在我看来还是完善的生态系统和创新的交互方式。特别是后者,在于抓住了用户追求“好玩”的心理。CC10给我们留下的深刻印象,便在于其首配备了一块智能音箱中最大的10英寸大屏,着重加强的“视”和“触”两个交互维度让用户在玩转智能音箱上留下了很大的想象空间。从产品名称上,我们也看到天猫精灵的团队也在着重强调“家庭智慧屏”的概念,不过经过这次新系统升级,CC10可玩的地方便远不止这块大屏了。
在全新升级到AliGenie5.0后,天猫精灵继续延着交互模式拓展的思路再次前行,首次提出了“多模态唤醒”的概念。这个概念并不难理解,便是通过语音、视觉、动作等多种方式进行人机交互,更自然地触发机器直接给出反馈。其实在之前的CC10版本上,我们便能通过语音、触控等方式实现交互,如今搭载全新系统的CC10支持“唇动唤醒”、“挥手唤醒”等唤醒方式,而用户则不需再喊出“天猫精灵”的唤醒词便能与其进行直接交互,加上全领域应用的全双工自然对话技术,让人和机器的交流过程全面“拟人化”。
可不要小看这个改进,在接触过很多智能音箱的用户后,我能够深刻感受到这种改进的意义。其实在家里,除了孩子能够一遍遍不厌其烦地喊出唤醒词之外,成人其实是不愿意去做这种重复性操作的,特别有家中有客人的情况下,更是不能像孩子一般“放飞自我”的。所以,在检测到人脸靠近后,通过提取嘴唇的动作信息,天猫精灵能更聪明地辨认出谁想跟它交流,让人感受到不同以往的亲和力。
解读多模态交互
除了天猫精灵的设计团队外,近年来我也接触过很多智能音箱品牌的设计团队,甚至是产业链上端的人工智能开发的团队。很多设计师都认同扩展交互模式对于提升智能家居使用体验的好处,但关于多模态交互的研究更多停留在学术研究层面。
纵观近两年的智能音箱产品,交互方式依旧有限,基本停留在语音、触控之上,而且业界的研究步伐基本上停留在解决视觉、语音等单一模态的交互精准度问题上。形成这样的局面其实很好理解,在一个上升市场上,采用成熟方案便能挣到钱,似乎开发提升用户体验的新功能便不那么必要。但是,在用户体验上能够大胆突破的无一不是行业中的佼佼者——比如拿出iPhone的乔布斯。
用过这么多的智能音箱之后,我经常会感受到智能音箱不够聪明。答案其实很简单:在当前的人工智能水准下,单方面提升单一模态的识别准确度并不那么有效,特别是机器学习需要过程,用户使用习惯千差万别的情况下。以语音交互为例,并不是机器的计算力不够,而是机器不知道何时该“听”,何时该“看”,导致无法接收到有效的信息,才会给出“笨拙”的决策和反馈。以往我们总是通过唤醒词来提示机器,这样的交互不仅机械化,而且经常出现我上述提及的尴尬状况。
在与天猫精灵团队过程中,他们的算法专家也一再提及,多模态交互正是通过融合视觉识别能力、语音识别能力以及上下文语义,把视觉和语音信息通过深度学习的方式进行融合然后输入到机器“大脑”,进而做出综合性决策。其实这样的说法也很好理解:我们的大脑也不是通过单一方式与外界交互的,眼、耳、鼻、舌、皮肤无一不是感知外界的手段。比如当我们看到迎面而来的火车时,不仅要通过眼睛看到的,火车的汽笛声、提前到来的风压、脚下的震动无一不是判别的依据。身边比较近的例子便是4D影院带来的沉浸感比普通影院更强。
所以在天猫精灵之上开启多模态“自然唤醒”的功能后,只需要盯着机器张嘴说话,天猫精灵会自动识别出用户的唇动、眼神朝向、表情动作等视觉信息,对照用户语音便能做出准确的反馈,而不需要唤醒词的帮助。虽然真实生活场景中,还会受到人脸距离、光线等因素的影响,但是它开创了人机交互“自然唤醒”的一个新的里程碑。
升级到5.0的AliGenie系统,正是智慧家庭领域的破冰者。这是智能音箱(智慧屏)上首次将唇动、手势、语音语义等多种形态的交互信息融合在一起,通过机器的深度学习和多模态感知的方式来理解用户的交互意图,并及时给出反馈的创举。而这样的创新诞生于阿里旗下其实并不奇怪,“巨大投入+突破性思维”正是阿里巴巴一直以来在各个领域占据高点的基础。
应用在天猫精灵CC10电池版上的AliGenie5.0系统,正是业内第一次把“多模态唤醒”从概念落地到了使用场景,也是业内首次应用在消费电子产品上。之所以将多模态交互首先放在天猫精灵这个产品之上,其实我们早在阿里巴巴发布这个人工智能语音助手品牌之初便可看出端倪,从最早深钻人工智能的语音交互技术起,阿里便想通过天猫精灵进驻到庞大的智能家居、甚至物联网市场中来,而灵活多变的消费电子市场正是创新市场萌芽的最佳土壤。
唇动唤醒是什么黑科技
在理解了多模态唤醒概念后,我们再来看看天猫精灵CC10电池版所擅长的唇动唤醒功能。其实这个功能已经充分考虑到用户的使用场景,将识别范围分成了“近场、中场、远场”。在1米左右的距离下,适用于唇动识别;在1~1.5米的距离下,适于挥手唤醒,其实也就是模拟人们见面打招呼的形式,挥手即可说话;而在远距离下,还是采用传统的语音唤醒词“天猫精灵”。
还有一点非常有意思的是,用户还要可以通过手势隔空操控CC10,比如上一个、下一个、暂停、播放、点赞、退出、静音等操作,比如对着机器比划“嘘”的手势,就可以马上让天猫精灵静音,是不是非常人性化!
天猫精灵的团队反馈中提及,融合嘴唇、语音的动态信息识别,在免唤醒的对话情景下,能够帮助机器过滤掉90%以上的环境背景干扰信息,多模态唇动唤醒的整体准确率可在实验场景下达到99%。在实际使用中,只要在光线充分的情况、周围噪声不太大的情况下(测试环境50~60dB的噪声),CC10几乎毫无误差的识别我的每一个语音命令,而以前使用过的智能音箱或多或少会有识别不准的情况。
适于智能家居的豪华配置
回到这台天猫精灵CC10电池版上,我们可以看到阿里为谋图整个智能家居而为天猫精灵配备的“奢华”阵容。用过CC10的用户其实会对这个10英寸大屏留下深记得印象:大可视角度且护眼的IPS屏幕、Miravision.芯片级护眼设计、高达77.2%的屏占比、观看更舒适的抬高倾角设计……这些设计很能体现设计师的用心之处,一开始便考虑到了孩子的使用。而且特别的智能陪读功能还能监测到孩子坐姿不端或打瞌睡,并发出提醒,帮助孩子形成良好的用眼习惯。
为实现“唇动唤醒”、“挥手唤醒”等唤醒方式,CC10配备了500万前置摄像头,这个摄像头不仅在识别精准度上完全满足上述要求(我以前与人工智能专家探讨过该类问题,其实当前摄像头的硬件分辨率并不是智能识别上的门槛,所以500万像素完全够用),而且前置摄像头采取下摆7°移轴设计,充分照顾到屏幕观影的最佳角度,及视频通话与监控的角度。搭配点读智慧眼之后,这个摄像头可以实现儿童实体绘本的同步朗读功能,比以往讲故事的单方面交互模式更加有趣,也便容易集中起孩子的注意力。
不仅如此,这个名为智慧屏的产品依旧保留了音箱的“本色”,独创的跑道型喇叭结构能够在有限的出音高度下实现更大的振膜面积,从而带来更大的声音转换效率,整体音质也得到全面提升。这与“大底即正义”的相机同理,更大的振膜面积能够还原出更暖且细腻的低音,使用CC10来听音乐、看电影其实一点不输于顶级的桌面级音箱。为了方便与其他设备连接,CC10还支持蓝牙5.0协议,支持BLE 2M bps传输数率,支持蓝牙mesh联网。当天猫精灵初到家中时,只需要说一声“天猫精灵,找队友”,便能与快速与智能设备相连。
另外 ,天猫精灵还拥有大课堂、大影院、大超市、大管家等功能,对于天猫精灵配置的这些软性资源,我的体验也是足够“大”,虽然没篇幅来一一列举,其丰富的资源已经完全涵盖了家庭日常所需的教育、娱乐、购物等衣食住行各方面。
令人意外的用户反馈
在收到植入了AliGenie5.0的CC10之后,我将其推荐给数位发烧用户。除了一位全职妈妈对其赞不绝口之外,她做设计师的先生也对天猫精灵给予了好评。正是在一次没有灵感的闲余时间里,随手把玩了一下身边的CC10,便对其自然唤醒大感兴趣,他的意见是这种有亲和力、高度拟人化的交互产品非常适合手上经常不得空闲的他使用;而另一位理科直男更是询问我能否为公司的会议系统开发这样高效的交互产品,目前使用的会议系统价格不菲,而且交互识别率远远不如天猫精灵。
其实我的感受也与这几位朋友相同,天猫精灵的多模态交互其实远远不止于应用在家庭之中,在商用领域上也有着巨大的应用前景。特别通过准确语音或手势打开或关闭各种功能,非常有利于会议的流畅性,比起遥控器更加方便。而对于手势控制,我也给天猫精灵的设计师一个建议:能否增加一个下单的快捷手势,毕竟身边就有一个热衷于“买买买”的老婆。
写在最后:
正如我聊到的用户体验,全新的天猫精灵是为高生活品质的智慧家庭而打造的全新用户体验的产品,也只有理顺了交互方式,用户才更愿意、更高频地打开产品背后的应用,天猫精灵这次开启“唇动唤醒”、“挥手唤醒”等唤醒方式正是打开了多模态交互的魔盒,相信还有更多的智能交互方式将诞生在阿里旗下的各个产品团队之中,AliGenie5.0仅是一个开始。