Siri

来自站长百科
跳转至: 导航、​ 搜索
Siri logo

Siri是苹果公司在其产品iphone 4S上应用的一项语音控制功能。Siri可以令iPhone4S变身为一台智能化机器人,利用Siri用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用。还能够不断学习新的声音和语调,提供对话式的应答。

技术来源[ ]

Siri技术来源于美国国防部高级研究规划局所公布的CALO计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件 Siri 虚拟个人助理。

功能[ ]

Siri 能做的,听起来相当不一般,使用者可透过声控、文字输入的方式,来搜寻餐厅、电影院等生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票;另外其适地性(location based)服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。

不过其最大的特色,则是人机的互动方面,不仅有十分生动的对话接口,其针对用户询问所给予的回答,也不至于答非所问,有时候更是让人有种心有灵犀的惊喜,例如使用者如果在说出、输入的内容包括了『drunk』、『home』这些字(甚至不需要符合语法,相当人性化...),Siri 则会判断为喝酒醉、要回家,并自动建议是否要帮忙叫出租车。

不过唯一可惜的是,该软件目前仅支持英语,另外相关信息也仅限于美国本土,但整个软件的概念,可以说是相当的有趣,而且还是免费的。相关支持:Siri语音系统目前支持英语、法语和德语,不过由于其仍处于测试阶段,对中文的支持可能并不甚理想,未来会加入更多语言支持。

Siri技术的和语音控制的区别[ ]

说到语音控制识别技术,就不得不提Android系统的Voice Actions,这也是一项伟大的语音控制技术,并已经被许多Android用户所熟知和使用。但是它和Siri完全不是一个级别的产品。

Voice Actions提供了非常坚实可靠的声音识别引擎,它的高识别度令人称奇。不过,和过去的所有语音命令系统一样,它要求你说的话要具备严格的语法结构和格式,否则系统将无法识别。

然而Siri和Voice Actions就有本质的不同了。你可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,Siri会结合上下文结构去理解,它还会从人类语言史的角度出发,利用人工智能系统去分析,并在绝大多数情况下领会你的意思。

而更加人性化的特点是,一旦你开始和Siri进入一段对话,它甚至能理解许多含义模糊或者引申的语义。而Voice Actions做不到这样的事情,因为它只是一个声控命令软件,而并非人工智能

语音识别不是革命性的。多年前, IBM 的语音识别软件在 PC 上就有不错的识别率了。

基于语音识别,简单的智能分析和系统功能的调用也不算革命性的。无论是 Google 的 Voice Action ,还是 Vlingo 等独立的公司,做的都不错。

但是,从目前流出的视频看, Siri 并非这些已知技术的简单组合。

Siri 的智能程度更高[ ]

Vlingo 中你说 “Text Mike ,Messages How are you.” 。利用关键字的匹配就可以完成很多事情了。 Text 是命令, Messages 是关键字。匹配上这两个词,就知道给谁,发送什么内容了。

而 Siri 理解上下文。你问了北京的天气,再说:“ How about Shanghai ?” ,他知道你指的是天气。

一个更惊人的例子出现在 Siri 被苹果并购前的演示里。你说“ I like a romantic place for Italian food near my office”。

Siri 回答:” I am looking for a Italian restaurants which reviews say are romantic near your wok in San Jose…“

这个回答说明 Siri 听懂了 romantic 是个形容词。并且知道 near my office 是个地方。并且,找到了以前存储的用户的工作地点。并且,他知道怎么判断一个餐馆是否 romantic !(去搜索 reviews )

把同样的话对着 Android 的 Voice Action 或者 Vlingo 说一遍,你就知道 Siri 具有超越现有 Apps 的智能。

Siri 和系统的整合更加紧密[ ]

Siri 在并购前的版本整合了大量网络服务的 APIs 。比如 OpenTable,Tickets,Taxi Magic 等等。

而 Siri 被苹果收购了之后, 他已经被整合为系统的一部分了。

iOS5 的 Siri 视频中,出现新短消息之后,交互由 Siri 发起。说明他已经常驻系统后台并且可以接管重要的系统功能了。(除了短消息还有天气,时钟,Maps 等等)。

相关技术[ ]

Siri所用到的技术,很多人会回答,人工智能以及云计算,的确,总体来说,是这两样技术,不过,这种概述感觉几乎没有任何意义,和不直接说“计算技术”(注意,不是计算机技术)呢。因此,在本文,我将介绍下我了解Siri可能采用的技术(由于有个人猜测,不一定准确)。

首先,在前端方面,即面向用户,和用户交互(User Interface,UI)的技术,主要是语音识别以及语音合成技术。语音识别技术是把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到所谓的“云计算”技术。而语音合成则是把返回的文字结果转化成语音输出,这个技术理论上本地就能完成,但不知道Siri是否如此,当然,在云端完成也并无不可,在当前无线带宽下,那点语音流量根本不算什么。

其次,后台技术,这些其实才是真正的大角色。这些技术的目的就是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构猜测可能是分析用户的输入(已经通过语音转化),根据输入类型,分别采用合适的技术(合适的技术后面)进行处理。这些合适的后台技术包括,①以Google为代表的网页搜索技术;②以Wolfram Alpha为代表的知识搜索技术(或者知识计算技术);③以Wikipedia为代表的知识库(和Wolfram Alpha不同的是,这些知识来自人类的手工编辑)技术(包括其他百科,如电影百科等);④以Yelp为代表的问答以及推荐技术。

相关信息[ ]

在iphone 4S的苹果发布会中苹果称Siri Voice Assistant 将会成为iOS的一部分。Siri 原是一个第三方应用,是苹果在去年花费2亿美元购买所得的。虽然在收购后很长的一段时间里我们仍能在App Store上看到这一应用的身影,不过它将近有一年多的时间没有更新。而直到今天苹果在发布会上介绍Siri这一功能后,Siri 这一应用才正式下架。

大家可能没有注意到的是,Siri下架是精心安排的:Siri 在苹果大会上第一次被提及的时候,这一应用还能在App Store上轻松的找到。但在大会结束后,这一应用就再也找不着了。看起来Siri这一应用是在大会结束的同时下架的。

为什么要下架呢?这是可能是因为苹果担心第三方应用若能够实现iPhone 4S 的功能的话,会影响现有的iPhone 用户购买新iPhone 的欲望,从而影响销量。

北京时间10月15日消息,据国外媒体报道,苹果官网Siri常见问题(FAQ)页面称,苹果语音识别个人助理功能Siri将在明年支持中文、日文、韩文、意大利文和西班牙文等更多语言。

目前Siri支持英文、法文和德文的语音识别,其中英文部分只支持美国、英国和澳大利亚的口音,对于其他国家和地区的英语口音在识别上还存在困难。

此外,被苹果定义为仍处在“测试阶段”的Siri目前支持在美国进行地图和本地搜索,不过苹果官网的Siri FAQ页面也承诺,相关功能在2012年将拓展到其他国家。

相关条目[ ]

Android

参考来源[ ]

http://baike.baidu.com/view/6573497.htm