AI如何落地?腾讯分享AI产品场景化的4个原则

发布时间:2017-11-08  |  标签:               

去年我们讲AI,都是在拼哪家技术进步了多少,多为学术上的研究,而今年再讲AI,发现很多产品都已经开始落地。AI是技术,可以与各行各业结合,而找到它的应用场景就尤为重要了。

11月8日,2017腾讯全球合作伙伴大会在成都召开,这场万人盛会上,人工智能场尤为突出。会上,腾讯智能平台总经理陈谦以“智能时代的场景化机遇与挑战”为主题发表了演讲,他提到了AI产品场景化的方向以及四个原则。

以下为演讲实录整理:

我们团队负责包括语音助手、图像识别等人工智能产品的研发与推广工作,今天很高兴能在这里就智能时代与场景化这个主题和大家分享我们对过去及未来的一些思考。

首先介绍下我们的产品,腾讯叮当,它是一款智能助手系统,提供高质、完整、开放的人工智能服务,帮助硬件设备快速获得听觉和视觉的交互能力。

智能硬件的特征

关于今天的主题,人工智能与场景化,我们将从智能硬件的特征来展开讨论,第一个是感官能力的多样化。

众所周知,我们人类具备触觉、视觉、听觉、嗅觉、味觉这五大感官能力。感官能力对我们人类的意义在哪?他帮助我们形成了对这个世界的认知能力,由此我们才能学会去观察、去记忆、去判断、去想象。

接下来我们以一个小孩的成长为例。我们经常看到周岁婴儿抓周的画面,这说明一个周岁的婴儿已经具备了对物理世界的基本认知能力。然后,她开始学会说话,逐渐具备对语音世界的认知能力,能够开始参与沟通。再往后,她开始学习写字,逐渐具备对文字世界的认知能力,能够开始参与知识传播。从物理世界、到语音世界、再到文字世界,这三步就是我们每个人的典型的认知能力成长过程。

计算机设备参与的过程,与人类成长的过程,并不一致。最早在个人电脑时代,只有我们具备文字认知能力才能使用电脑。后来当pad出现后,我们发现其实小孩子很自然就能玩起来、能解锁,这说明用户只需具备物理认知能力,就能使用计算机设备。对语音认知能力来讲,这块目前还在等待一种真正撬动用户的计算机设备的出现,这也正说明语音存在着巨大的机会,因为我们人类对认知成长存在天然的诉求。

AI产品场景化的四个原则

AI产品场景化的原则一共总结为四条: 

AI如何落地?腾讯分享AI产品场景化的4个原则

1、真正自然而优美的语音交互

提到语音,经常有人比较语音界面与图形界面。请注意关键词,“真正的自然”、“真正的优美”,只有做到这样,语音交互才开始具有实际的竞争力。我认为语音界面有两个特征。 

AI如何落地?腾讯分享AI产品场景化的4个原则

第一,语音界面是对自然度要求最高的交互形式。为什么这么说?因为图形界面在本质上是一种建立主动性强引导的交互,当你打开一个界面时,他就已经在按照严密的既定设计意图去引导你完成既定目标。相比起来,语音界面能给你提供的引导很少,而当你处于一个弱引导性的交互环境中时,交互形式是否自然对产品成败就非常关键。目前这个历史阶段,做语音界面的核心就在于探索出做到“自然”的办法。

第二,在“自然”的基础上,语音界面天然包含了丰富的情感信息量,例如平静、惊喜、失望等,他们都是传统图形界面难以传递的。我们做语音界面,如果能传递出适当的情感信息,也就是在最大化利用语音界面的独特价值。

这是个新闻的案例。最左屏是一个典型的文字版新闻,中间这屏是通过语音合成技术TTS播放的语音版新闻,也是目前很多语音助手采用的方法。当我们在做腾讯叮当的语音新闻的时候,我们认为优美愉悦的听觉感受对新闻非常关键,我们希望去做到这种情感,所以我们投入成本去建设人工录制的语音新闻。

2、视觉与听觉信息的高效配合

刚才讲的是语音交互。在我们生活中,视觉信息的比重比语音信息更大,所以近期来看做好纯语音交互是基础,长远来看做好视觉与听觉信息的高效配合才是关键所在。十几年前已经在手机上出现语音交互,但视觉与听觉信息的高效配合还没被真正做到。有个很有意思的现象,对一个界面而言,假设只使用视觉信息的效能是1.0,只使用听觉信息的效能也是1.0,那么5年之前,很多结合了视觉与听觉信息的产品案例,加起来的效能反而只有0.X。也就是说,视觉与听觉不但没能互为补充,反而互为影响。近年来平均水平增长到1.X,但还没达到视觉与听觉信息的总和2.0。看未来,等我们人类找到结合好视觉与听觉信息的办法后,它们配合的总效能可能是指数级的增长,变成10.X这样。这种增长,对产品的场景化会很有帮助。

AI产品场景化原则的第二条就是视觉与听觉信息的高效配合。

现在我们结束了智能硬件的特征的第一点,感官能力的多样化。接下来我们开始说第二点,计算设备的增强与小型化。

一个计算设备的场景化潜力主要取决于两点,一是能力、二是尺寸。浅而易见,它的计算能力越强,尺寸越小,能适用的场景就越多。这张图描述的是从大型机、到台式机、笔记本、智能手机、再到智能耳机的变迁。大型机的尺寸决定了它几乎没有场景化潜力。你可能已经很久没打开过家里的台式机了吧。为什么?因为它无法伴随你在沙发上、在床上、甚至在马桶上。笔记本和智能手机的移动性极大地拓宽了它们的使用场景。最后是智能耳机,随着能力增强,它能适应到许多智能手机无法满足的场景。我们正在与1More公司合作一起打造智能耳机,来满足用户对场景的需求。

随着计算设备的增强与小型化,它们的场景也发生变化。在过去的个人电脑时代,你可能只有白天在公司,晚上回家后使用下电脑,场景很规整。在移动时代,使用的设备更多、片段更短、场所更杂。总结来说,我们看到了越来越明显的场景碎片化的趋势。

对应这个趋势,我们有两条产品场景化原则。

3、单场景单设备的极致闭环

所谓极致,就是轻松、高效、自动。以前需要多人多设备多步骤的操作,现在由单设备完成。

这是我们机器人拍照的案例,只需一个语音口令,机器人就能根据你们的声源方向来转头,根据它摄像头里的图像识别来调整镜头焦距,甚至还能根据预存的头像来识别出都是谁,全程自动帮你们完成拍照。我们一起看下演示视频。在机器人方向上,我们现在正与优必选公司合作,一起打造机器人。

接下来是腾讯叮当的智能电视案例。当你看球赛或电视剧时,如果对屏幕中的人感兴趣,以前只能拿出手机搜索。现在变得很简单,你只需要对电视说这个球员是谁,就能在屏幕上看到他的名字等信息。这还不止,基于我们完善的知识图谱,你还可以进一步问电视他本赛季的每场平均得分。我们看到,单设备完成了以前多设备的任务。在智能电视方向上,我们正在与长虹合作一起打造产品。

这个是智能耳机的案例。在运动场景时,耳机能够根据你的运动状态去支持你更好地完成运动。

最后是腾讯车联网的案例。当你启动GPS导航去一家餐馆时,我们的语音智能助手能快速帮你完成订座。

 AI如何落地?腾讯分享AI产品场景化的4个原则

单场景单设备的极致闭环,就是我们AI产品场景化原则的第三条。刚刚提及的四个腾讯叮当的案例都和这个相关。

再回到场景碎片化的趋势,除了单场景单设备的极致闭环,我们还需要做到跨场景多设备的无缝衔接。这两条思路紧密相关,只有第一条做好,第二条才可能。

4、跨场景多设备的无缝衔接

这是装载了腾讯叮当的智能音箱和手机的跨场景案例。当你在家里音箱上收听读书时,如果对一本书感兴趣希望一会出门后在地铁上接着看,可以告诉音箱将它发送到你的手机。我们一起听下演示。

好的,那现在我们就已经讲完了AI产品场景化原则的全部四条。真正自然而优美的语音交互、视觉与听觉信息的高效配合、单场景单设备的极致闭环、跨场景多设备的无缝衔接。

要探索场景化,核心是技术的支持。

一个语音助手首先要听得清。在唤醒和语音识别上,我们的3m唤醒率达到95%以上,语音识别正确率达到96%以上。对于一些生活中的常见场景,例如GPS导航和音乐,我们在数据和算法上做了大量针对性的优化,力求在特定场景下做到最好体验。

在听得清之后是听得懂。腾讯叮当的语义理解拥有千万级的语料标注、海量的知识图谱,深度融合了语音识别来提升了语义理解的纠错能力,在完善的用户画像基础上能够建立起个性化语义。

在听得懂之后,我们还要答得上。腾讯叮当建设了过百个领域服务,覆盖各类场景,在广度和深度上满足用户需求。例如在内容消费场景,我们有歌曲最新最全的音乐、自制的高品质音频新闻。在家庭陪伴场景,我们有儿童类服务。在运动场景,我们和咕咚公司合作一起打造智能运动的相关服务。

不仅要答得上,我们还要让用户感受到愉悦。我们的语音合成TTS技术分四步:逼真化、个性化、情感化、场景化。

以上所有的技术能力,通过Tencent Voice Services,简称TVS,提供给到终端硬件厂商使用。TVS是市面上最灵活的终端接入方案,无论是从技术方案、产品方案、还是商务方案的角度,我们提供了灵活、开放、和定制化的接入方式,帮助终端硬件厂商满足各自需求,能够非常快速、容易地接入腾讯叮当,获得智能能力。另外,TVS和亚马逊AVS适配,也就是说对已经支持AVS的硬件设备而言,厂商可以非常容易地无缝切换到TVS。

【扫描下面二维码,和我们一起畅聊AI吧】