今天是 2025年05月19日(Monday)

图书馆应用人工智能语音开展信息无障碍服务探析

王凯丽  时间:2017-08-16 16:46
[ 摘要 ]本文从人工智能语音的应用现状出发,阐述了语音应用于图书馆信息无障碍服务中的重要意义,分析了语音应用于图书馆信息无障碍服务中的可行性,从优化网站无障碍建设、采用第三方语音技术和终端服务保障三方面为图书馆应用语音服务进行探讨。
[ 关键词 ]人工智能语音 语音技术 图书馆 信息无障碍 网站无障碍建设 移动终端

图书馆应用人工智能语音开展信息无障碍服务探析

王凯丽

南山图书馆  广东  深圳  518052

[摘要]本文从人工智能语音的应用现状出发,阐述了语音应用于图书馆信息无障碍服务中的重要意义,分析了语音应用于图书馆信息无障碍服务中的可行性,从优化网站无障碍建设、采用第三方语音技术和终端服务保障三方面为图书馆应用语音服务进行探讨。

[关键词]人工智能语音  语音技术  图书馆  信息无障碍  网站无障碍建设  移动终端

 

  在众多媒体眼中,2016年可谓人工智能(AI)崛起的元年,谷歌的人工智能AlphaGO击败人类顶尖围棋选手李世石一举成名,成为科技界最具标志性的事件。作为人工智能领域技术落地最为成熟的语音技术,也在2016年成为了媒体最大的关注焦点,互联网女皇将2016年《互联网报告》十分之一篇幅给了语音技术,报告指出"语音是人机交换的典型方式,语音交互既快又简单、个性化、情境化且无键盘操作,语音交互解放了人们的双手和双眼,开启了永远在线的伴随式场景,人们可以随时随地使用:在家里、在车上、忙碌奔走中、工作中、休闲运动中......人工智能最典型且最先普及的就是语音技术"[1]。如果说人工智能是互联网上的皇冠,那么,语音技术就是皇冠上最璀璨的那颗明珠。

1人工智能语音及无障碍应用的重要意义

1.1人工智能语音及应用

  人工智能语音,简称语音,是指机器通过是对人类语言能力的模拟,能够像人类说话,并能听懂人类的语言,与人类进行即时问答的语音交互,帮助用户解决问题。

  语音在计算机领域中的关键技术是语音合成技术(Text to Speech)和自动语音识别技术(Automatic Speech Recognition),分别解决"让机器能够说话给人类听"和"让机器听懂人类说话"的问题。

  语音合成技术就是文字和语音转换技术,语音合成技术将计算机的文字信息实时转化成标准流畅的语音朗读出来。早期的合成语音较为生硬、机械化;目前的合成语音采用情感合成技术,提高了合成语音的自然度和语音丰富的表现力,达到接近真人发声效果,例如百度曾利用此技术,复原已逝明星张国荣的声音,高德地图的语音导航系统有林志玲、郭德纲等真人效果语音和多种地方言语音。

  语音识别技术是用说话代替文字输入的技术,包含三个方面:第一是将语言转换成文字,第二是将文字信息作为命令输入电脑,第三是执行命令。语音识别技术曾经被科学家称为"比登月还难"的研究,近年来已经取得重大突破,并日臻成熟。语音识别技术的应用包括语音拨号、语音导航、智能家居设备控制、语音文档检索等。

  语音助手是一款智能型的语音应用,智能语音助手以IT巨头公司的产品为典型代表,如苹果的Siri;谷歌的Google Assistant;微软的Cortana;亚马逊的Echo等;目前,车载导航系统和盲人语音助手,语音已成为主要的人机语音交互方式,这些都代表着语音应用的发展方向,未来,随着自然语言理解技术和唤醒技术的发展,不再需要辅以其他输入,就可完全实现人机语音交互。相信随着AI时代到来,人工智能语音的应用将越来越广泛,我们的双手和双眼将被解放,我们的世界将更加美好。

1.2语音无障碍应用的重要意义

  "信息无障碍"起源于西方发达国家,译自"Accessibility",指任何人(无论是健全人还是残疾人,无论是年轻人还是老年人)在任何情况下都能平等、方便、无障碍地获取信息并利用信息[2]

  图书馆信息无障碍服务面对的群体绝不是少数人而是大多数人,甚至是所有人。据统计,目前全世界60多亿人口中有5亿多残疾人,发展中国家的残疾人问题尤其严重,有些发展中国家残疾人所占人口比例估计高达20%。据中国残联最新统计的数据显示,截至2014年底,中国各类残疾人总数已达8500万,约占中国总人口的比例的6.21%;其中视力残疾1263万人,约占全世界盲人总数的20%;国家统计局发布2014年国民经济和社会发展统计公报显示, 65周岁及以上人口数为13755万人,占比10.1%;国内阅读障碍人群的发生率为6%,约有7800万人;另外,我国目前有6.42亿人口由于上网技能缺失以及文化水平限制成为非网民人群;以上人口合计占中国人口数的69%以上,近9.5亿人。图书馆应用语音开展信息无障碍服务,显然是非常重要和迫切的。

  语音将是图书馆信息无障碍服务最有效的方式:语音受众面广、应用场景多、人的发声系统和听力系统是天生的,语言能力也是每个人都俱备的、尤其是用户不需要技能学习就能使用,这些优点决定了语音是信息无障碍服务最有效的方式。语音技术能将文字转换成成语音,让视障人士通过听觉来获取信息;对于手部运动有障碍人士和视障人士,语音可以解决文本输入困难的问题;语音技术还可以将音频中的语言转换成文字,为聋哑人士提供文字阅览;语音技术能够帮助老年人和学龄前儿童、阅读障碍症和低文化人群进行阅读;即使是正常人,由于用眼过度导致人们的视力普遍下降,也喜欢通过语音来获取信息。

2语音应用于图书馆信息无障碍服务的可行性分析

  本文将网站无障碍建设、移动场景的语音应用、语音技术平台和用户语音服务需求几方面,对语音应用于图书馆的信息无障碍服务的可行性进行论述。

2.1政府和互联网组织对网站无障碍建设的推进工作

  1997年2月,万维网联盟(W3C)为了提升网络的无障碍性,成立了网络无障碍推动(WAI)小组,并制定了一系列的关于网络无障碍的标准、规范、检测表、技术,并在全球范围推动。W3C WAI推出的各项信息无障碍标准、规范和技术虽不具有强制性,但却有划时代的重要意义,影响了各国及各组织的相关标准,甚至法律法规的制定,其中美国和英国最具代表性。美国的技术标准主要采用W3C规范,2006年修订《残疾人康复法案》要求网站的服务应满足由美国无障碍委员会制定的信息无障碍标准,要求从事商业活动的网站必须遵守美国残疾人法中有关无障碍设施的规定。英国残疾人权利委员会(DRC)与英国标准协会(BIS)以W3C的WCAG标准为参照,结合英国残疾人权利委员会的意见,制定了网页无障碍规范,涵盖了网站无障碍开发的各个方面,如自动测试工具、代码验证方法及保障残障用户参与设计等[3]。中国信息产业部以W3C的WCAG标准为参照于2008年《信息无障碍 身体机能差异人群 网站设计无障碍技术要求》。

  IBM、Microsoft等企业引领了信息无障碍建设。IBM公司不仅参与国际无障碍标准的制定,而且专设IBM全球信息无障碍中心(IBM Human Ability & Accessibility Center),同时还研发无障碍技术,如IBM EWB(Easy Web Browsing)技术向初学者或弱视人士提供友好的网页界面,可放大字体,朗读网页内容,通过改变字体和背景色等方式对网页进行优化。Microsoft公司在网站上开辟无障碍栏目,在大众化产品上增加无障碍技术性能,并预留应用接口API支持无障碍技术,同时专门为残障人士开发无障碍产品[3]

2.2移动场景促进语音应用

  语音技术在桌面电脑时代一直得不到很好的应用,主要原因是桌面电脑大多用于固定的环境,如家里和办公室,配备键盘和鼠标,大多数人已经习惯打字而不是说话,而语音交互在移动环境中的价值更大,用户可能在室外正处于移动状态,某种场合只能说话而且使用键盘很不方便,尤其是那些没有实体键盘的触摸屏手机用户。

  实时的语音交互需要高速的网络支撑,4G和WIFI为语音在移动终端的应用铺平了道路。中国手机网民通过4G和WIFI上网的比例高达95.1%。4G 作为手机和互联网之间的"高速公路",有着不可比拟的优越性,4G能够快速传输数据、高质量、音频、视频和图像等,以100Mbps以上的速度下载,相当于家用宽带ADSL100兆的速度;4G网络在最近两年的普及速度超过了所有人的预期,目前4G网络已基本覆盖全国。WIFI是当今使用最广的一种无线网络传输技术,WIFI将有线网络信号转换成无线信号,转换过程简单易操,WIFI最主要的优势在于不需要布线,非常适合移动用户的需要,几乎所有智能手机、平板电脑和笔记本电脑都支持WIFI上网。

2.3第三方语音平台提供技术支撑

  语音平台未开放之前,语音交互作为一个需要长期积累的专业技术领域,对非专业的开发者来说是一个难以逾越的门槛。第三方语音平台的开放,为图书馆语音服务提供了技术支撑。讯飞语音开放平台是全球首个开放的智能交互技术服务平台,开发者可以利用讯飞的语音技术,简单快速集成到产品中,让产品具备"能听会说会思考会预测"的功能; 2013年10月百度正式宣布对外开放语音技术,通过百度语音技术服务,开发者可以轻易获取强大的语音技术能力,快速构建各种语音交互应用。2016年11月在百度宣布将四项深具革命性的语音技术,即情感合成、远场方案、唤醒二期技术和长语音方案,再次免费开放给用户和开发者共享。百度语音开放平台的合作伙伴已涵盖多个领域和场景,包括智能手机领域、智能家居领域的智能电视、智能服务领域的携程、手机QQ阅读等。

2.4语音服务需求

  语音具有穿透能力和感染力强的特点,语音的优势在于具有传真感,听其声能如临其境、如见其人,能唤起听众的视觉形象,有很强的吸引力。声音比其它任何媒介接受信息都要简单、方便,语音自从进入大众生活以来,就以惊人的速度在增长。2013年-2015年,美国智能手机用户使用语音助手的比例从30%上升到65%,谷歌2016年语音搜索量比2008年增长了35倍以上;百度每日在线语音识别要求从2013年的500万上升到今天的1亿4千万,在线语音合成每日请求达2.5亿[4];创立于2012年8月的喜马拉雅电台用四年的时间拥有3亿用户,电台集有声图书、相声、评书、新闻、综艺娱乐、外语、培训讲座等海量内容,上千万条声音,可通过电脑和手机、Iphone、Ipad、Android等移动终端收听;"十点读书"微信公众号在2016年一年时间里,粉丝增长了1000万,总用户达到1300万,平均每天阅读量700多万;在欧美等国家,有声书已是一个十分热门的类目,美国有声书每年掘金700亿美元,德国过去一年购买过有声书的人数占总人口的7%,Audible的会员人均每年听书17本......由语音用户的增长速度可见语音的需求强烈,图书馆推出语音服务,符合时代要求。

3 图书馆应用语音技术开展信息无障碍服务的举措

  根据前文分析:网站无障碍的技术标准推进工作取得重大成效、硬件设备和软件平台为语音提供支撑,用户语音需求量大,图书馆应用语音服务的条件已经成熟,图书馆应该紧跟时代特点,采取积极措施,根据新媒体生态、用户、传播规律,将智能语音应用到信息无障碍服务中。可以从三方面入手开展工作:

3.1优化图书馆的网站

  互联网是人们获取信息的主要来源,视障人士对互联网信息的渴望不亚于健全人,甚至更为迫切,互联网是他们丰富生活、融入社会的重要渠道,既是生存问题又是发展问题。 "读屏软件"把屏幕上的文本内容转换成语音,帮助视障人士克服视力障碍,通过语音来获取互联网信息。国内主流的电脑读屏软件有争渡、永德、布莱叶等;移动端IOS系统和Android系统也有移动版的"读屏软件":ViceOver和TalkBack,这两款语音辅助软件可以为视障碍用户提供实时语言朗读,是视障人士使用智能手机的"眼睛"。

3.1.1网站的无障碍建设

  网站的无障碍建设,好比是一个城市的道路建设,语音就是城市道路上行走的汽车,只好道路设计合理,畅通无阻,汽车才能安全通行。图书馆网站集服务信息发布、资料查询、参考咨询、电子阅读、远程教育于一体,图书馆的网站建设必须遵从信息产业部发布《信息无障碍身体机能差异人群 网站设计无障碍技术要求》,适用于各类盲用读屏软件;充分考虑视障人士的使用习惯和便利性,网站栏目分区清楚、导航明确,网站还需提供清楚、简洁的导航机制,网站上的多媒体、图片、链接均标示文字说明,全网站页面可用键盘操作(不限于鼠标),网站设置快速导航热键,网页图片均标示文字说明,所有图形链接均添加提示文字,网页设有放大、缩小、开启辅助线、高对比度的功能,以满足不同人群的浏览需求。网站中的有声视频和音频可以通过语音识别技术转换成文本,方便于聋哑人士浏览。网站增设"无障碍浏览"通道,用户在没有读屏软件的情况下也能通过语音"浏览"网页。

3.1.2提高网站的用户体验

  图书馆需要提高用户界面的人性化和舒适度程度,整合数字化资源中由于不同的数据库造成的检索方法和用户界面不同的问题。引入先进信息处理技术,以更加高效和智能的方式提升信息资源处理、组织加工、存储和服务效率。例如分析用户个性化需求,根据用户的实际情况和操作行为,对用户的信息需求进行判断,进而达到对用户需求资源进行智能搜索和筛选的目的,进而根据这些需求主动为用户推送个性化的信息资源,达到服务的主动性和精准性。

  网站开发流程还必须确保出场产品经过无障碍检验,还需要邀请多方用户体验,尤其是视障人士,图书馆要根据用户反馈的信息进行不断改进。建设图书馆业界把网站的无障碍体验纳入全国图书馆评估标准细则。

3.2应用第三方语音技术

  图书馆可向语音技术第三方平台申请语音技术,图书馆可根据语音技术开发程度,逐步开展语音服务。

  一提供语音朗读:把语音合成技术应用于图书馆的页面,凡是有文字、图片的地方,皆能转换成语音。语音合成技术目前应用广泛,技术成熟,例如"读者数字农家书屋" 手机APP利用百度语音合成技术,针对农村留守老人、儿童、残疾人士等不便阅读的人群推出"听书"服务,有效解决了城乡因数字鸿沟带来的差异问题。

  二提供语音输入:把语音识别技术应用于图书馆的页面,凡是需要用文本输入的地方,均可以用语音输入。如中国国家数字图书馆APP和上海图书馆APP,均采用了语音识别技术,读者可通过语音输入代替文本输入进行馆藏资源搜索,但这两家图书馆的APP只限于语音输入,没有提供语音诵读。

  三提供智能语音机器人服务:人工咨询服受时间和空间的限制,且图书馆咨询馆员数量有限,无法满足日益增长的咨询服务需求。图书馆可利用人工智能机器人为读者提供参考咨询服务、馆藏资源搜索、学科导航、用户定制等服务。例如利用机器人分析用户个性化需求:根据用户的实际情况和操作行为,对用户的信息需求进行判断,进而达到对用户需求资源进行智能搜索和筛选的目的,进而根据这些需求主动为用户推送个性化的信息资源,达到服务的主动性和精准性。提供智能聊天机器人聊天功能,增进图书馆和读者的互动,提升用户体验和读者粘度。

3.3语音应用的终端保障

  图书馆利用第三方语音技术开放平台,借助移动设备和广播电视等终端开展个性化和主动性服务,服务终端的多元化和互补性可以满足不同人群的阅读需求和阅读习惯。

3.3.1移动终端

  近两年,手机正在逐渐取代电脑和笔记本电脑,成为网民最重要的一个信息终端,第39次《中国互联网络发展状况统计报告》显示,截至2016年底,我国手机网民达6.95亿,网民使用手机上网的比例为95.1%,使用台式电脑、笔记本电脑上网的比例分别为60.1%、36.8%,呈下降趋势[6]。手机阅读正成为电子阅读最便利的一个终端,潜力无限,图书馆通过移动终端的APP、微信公众号开展服务已是一种流行趋势。

  微信公众服务平台,为图书馆提供更强大的业务服务与读者管理能力,图书馆可以通过微信公众号便捷地向读者输送文字、图片、语音、视频等各种信息,实现对读者的主动推送信息和互动沟通;读者接收信息不受时间和空间的限制,随时随地,图书馆服务就在身边,这种全新的信息传播方式受到读者的喜爱。目前国内已有多家图书馆将网站部分服务功能转移到微信公众平台,读者可通过微信公众号实现馆藏检索、图书续借、电子图书阅读、读者活动报名等。

3.3.2智能电视

  智能电视作为家庭娱乐和上网设备,上网比例继续攀升,截至2016年底,网民使用电视上网的比例为25.0%,电视占据着每个家庭最重要的位置,客厅中间,舒适的沙发,轻松快乐这些词与电视相伴。智能电视的出现改变了人们以往被动的电视观看模式,实现了点播、互动、按需观看、随看随停。如果将图书馆的数字化资源应用于智能电视上,读者坐在家里舒服的沙发上,通过大屏幕的液晶电视就可利用图书馆的各种数字化信息,相信会是一种很好的阅读体验。此外,由于电视人口覆盖率已达92%,在不具备计算机设备的偏远地区,可以使用电视机加机顶盒接入网络获取图书馆的信息资源。

3.3.3网络广播电台

  网络广播电台是一个可移动的声音图书馆,为用户提供了一种更加便捷的阅读方式。用户可以在家里,也可以在路上、车中,甚至是边开车边收听,只要打开播放器就可以了。广播可以让人们的"眼球"得到放松和保护,人们只要用听觉就可以得到信息。如时下最火的网络电台喜马拉雅,充分利用人们碎片化的时间来收听信息,可以在不同的场景和空间,深受视障人士和普通大众的喜爱。图书馆可以借助网络广播电台,将有声读物推送给读者。

4结语

  语音是人类沟通最自然最便捷的一种方式,语音改变人与机器的交互方式,使得人机交互方式更加简单、直接,语音将代替"键盘+鼠标"成为下一代主流物联网人机交互方式。

  用语音传播信息比其它任何媒介都要简单、方便,快捷,图书馆应用语音开展信息无障碍服务,适应新媒体时代特点和用户的需求,语音服务消除了弱势群体利用图书馆的困难的问题,同时也为全体读者提供了人性化、便利化的服务,从而实现图书馆的均衡服务、惠及人人的目标。

[参考文献]

[1]2016年互联网女皇报告:全球网民已达30亿.腾讯科技.2016-6-2[2017-2-7].http://tech.qq.com/a/20160602/001559.htm

[2]孙祯祥. 构建无障碍网络信息环境的研究[J].图书馆情报工作,2008(9):7

[3] 信息无障碍,我们能为视障人士做什么? 腾讯研究院.2015-1-27[2017-2-7]. http://www.tisi.org/Article/lists/id/3524.html

[4] 百度语音开放平台三周年 每日在线语音识别调用1亿4千万.中国IT研究中心. 2017-1-23[2017-2-7]. http://www.cnit-research.com/content/201611/12143.html

[5]  第39次《中国互联网络发展状况统计报告》发布.人民网2017-1-23[2017-2-7]. http://media.people.com.cn/n1/2017/0123/c192372-29044482.html

[6] 王曙雅. 论基于信息无障碍图书馆核心竞争力的培育 [J].农业图书情报学刊,2009(9):257

 [作者简介]王凯丽  女,深圳南山图书馆馆员。

(来稿日期:2017-05-08  责编:冉文格)