自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用

类别:软件工程 点击:0 评论:0 推荐:

自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用

RDTE OF CAI FOR THE DEAF&DUMB CHILDREN BASED ON ASR

 

一、             课题来源及研究的目的和意义;

据有关机构抽样调查,我国有残疾人约6000万,其中聋哑人约有1300万,18岁以下应受教育的聋哑人约达100万,这是一个庞大的弱势群体。他们在学习、工作和生活上有许多难于想象的艰辛和障碍,在成长和发展的道路上要比常人付出多倍的努力。聋哑儿童的教育是一项充满爱心、充满社会主义人道精神的光辉事业。也是我们整个社会义不容辞的责任。

    欧、美、香港等一些经济发达国家和地区聋教育起步很早、水平很高。在传统的教学方法、教学手段、仪器配备等方面我国与他们差距较大。在现阶段,国内外聋教育、康复机构较注重专用设备的研究和配备,而在现代化教学技术的应用,尤其在网络、计算机、自动语音识别技术等最新科技成果应用方面,我国与国外尚存在着一定的差距,基本上处于起步阶段。事实上,现代信息以及其他科技、医学等领域的新理论、新技术和新设备应用到聋人康复、教育等方面后,必将使世界聋教育的观念发生重大改变,从而也给聋校的教育改革带来巨大的影响,我国的聋教育必须抓住机遇,深入进行改革和创新,努力提高学校的教育质量,跟上时代的步伐。

    在全世界聋哑儿童的教育领域里,从现代教育技术的应用而言,我国与国外的差距不大,这是我国聋教育事业赶超世界水平的难得机遇。本课题率先把现代信息技术、现代教育技术与聋教育的特殊需求相结合,通过将信息技术及软件开发成果应用于聋教育,并对实施对象、实施方法及效果进行研究、对比,总结出符合中国国情的现代教育技术在聋哑儿童教育领域的实施经验。

    本课题旨在利用现代教育技术和手段,基于自动语音识别技术(ASR),在聋人教育的技术层面上,进行研究、改革、实践,注重培养聋哑儿童学习的兴趣,使其掌握收集、分析和处理信息的能力,掌握自学和终身学习的现代化手段,提高自身素质和适应社会生活的能力,使其能以平等的地位和均等的机会参与社会生活,共享社会物质文化成果。

 

二、             国内外在该方向的研究现状及分析;

聋哑人语音训练的研究国外始于六十年代中期,根据反馈途径的不同,大致可以分为两类:利用聋哑人的残存听力借助助听器听取自身发音已纠正发音的听觉反馈训练系统和通过观察CRT上根据自身发音经处理后所获得的特征参数来纠正发音的视觉反馈训练系统。前者造价低,但效果较差。对重听、重度耳聋、全聋的患者效果更差或完全无效。后者由于通过视觉反馈,几乎适用于一切聋哑人,训练效果也较好。在早期研制时视觉反馈系统成分较高,随着计算机和大规模集成电路技术的发展,尤其是语音专用芯片和单片机的出现,成本已大大降低。

目前,国外已经有多种视觉辅助语音训练系统的报道。这些系统基本上都是将受训者所发语音进行处理后,提取语音的特征(例如:强度、持续时间、频谱、基频、共振峰等),与标准发音的特征同时显示在CRT上,让受训者对自己的发音与标准音进行比较,逐步纠正自己的发音。很遗憾,这种系统所显示的信息对一般的受训者来说太转业了,不易为他们,尤其是聋哑儿童所理解,因此影响了训练效果。这是这类系统的最大缺点。

至于本课题的重点,自动语音识别研究,开始于五十年代初,当时电子信号频谱分析仪器开始被用于从语音信号中识别简单、少量的音节和音素。随着计算机技术的飞速发展,进入九十年代后,语音识别的研究进一步升温,除了连续语音听写机之外,还出现了诸多实用化的研究方向。IBM公司率先推出的ViaVoice标志着大词汇量、非特定人、连续语音识别技术正趋于成熟。目前,市场上还有很多比较成熟的语音ASR产品,而且他们大多数都支持二次开发,如微软的Speech Application SDK(SASDK)、SUN公司倡导的JavaSpeechAPI、IBM的Dutty++等。他们大部分能识别英语、日语和中文等不同国家的语言,Dutty++甚至能够识别某些地区的方言,如广东的方言-粤语。从整个语音识别研究的发展前景上看,语音识别系统的鲁棒性(Robust)将是未来几年的研究重点之一。因为这是语音识别系统由实验转为实用过程中的一个最为迫切最关键的问题。而针对聋童的自动语音识别系统,将是一个不可忽视的研究重点。

我国的语音识别研究起步较晚,但由于汉语语音识别的重要性日益突出,最近十年的发展十分迅速。所以相应从九十年代开始的自动语音识别的研究,我国基本可以和国外同步。目前,国内从事这方面研究机构主要有:清华大学、中国科学院声学研究所、中国科学院自动化研究所,香港大学、中国科学技术大学、国防科技大学、北京邮电大学等等。

 

三、             主要研究内容;

ASR,英文的全称是Automated Speech Recognition,即自动语音识别技术,它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等学科紧密相连。而针对聋童教育的ASR,也将运用到包含教育学、教育技术学在内的众多学科。

本课题基于语音识别技术,即将受训者所发语音经处理后,计算与标准语音及邻近语音的发音近似率,并在CRT上显示其结果,以指导受训者的发音逐步向标准语音靠拢。该系统显示的是与标准语音及其他类似音的发音近似率,并辅以发音的口型图显示,对受训者来说,显示信息比较直观,训练效果好。

具体而言,本课题重点研究开发适合聋哑儿童计算机辅助教学中应用的自动语音识别系统,即小(特定)词汇量、非特定聋童、连续自适应语音识别系统,并且提供方便前台(计算机辅助教学平台)调用的接口。

 

四、             研究方案及进度安排,预期达到的目标;

    拟采取的研究方法和技术路线(包括研究工作的总体安排、步骤和进度等):

本课题以Java语言为基础,结合自动语音识别技术的算法原理。

采取以下方式:

阶段一:分析阶段,研究诸多已有学术成果,确定具体的算法

        2005年1月~2005年2月

阶段二:设计阶段,设计出流程图。

        2005年2月~2005年3月

阶段三:开发程序,按照设计阶段流程,编码。

        2005年3月~2005年4月

阶段四:测试维护程序,按照实际情况,进行实用测试。

        2005年4月~2005年5月

阶段五:实现产品投入,完成毕业设计任务。

其中1到3阶段并不是明确界定的,进行螺旋式开发

研究的阶段成果及最终成果:

阶段性成果:

至2005年1月,提交可行性调研报告;

至2005年3月,完成流程图的设计;

至2005年4月,编码完成;

至2005年5月,软件测试完成,提交最终的科研成果。

 

五、             为完成课题已具备和所需的条件和经费;

1.  已经具备的条件:ASR的理论研究成果、相关JSAPI文档等

2.  所需条件:开发聋童计算机辅助教学平台

3.  经费问题:在实际开发中,考虑到版权问题,可能需要购买一些相关软件,或者咨询费等。

 

六、             预计研究过程中可能遇到的困难和问题以及解决的措施;

1.  理论

问题:由于现在语音识别的理论相当成熟,但涉及的学科知识广泛,故本人在某些方面不能及时地解决

解决措施:咨询相关专家或者查阅相关资料

2.  技术

问题:现在比较成熟开发语言采用的是C/C++等,而本课题采用的是Java,可能存在参考资料少,开发困难

解决措施:使用并完善已经发布的一系列JavaSpeechAPI

 

七、             主要参考文献。

[1] 陈汝琛等 基于语音识别技术的聋哑人视觉辅导语音训练系统 中国生物医学工程学报 1996.12

[2] 李建民等 基于汉语语音特点的大词表语音识别系统的研究 计算机学报 1992.5

[3] 郝杰 基于经典隐马尔可夫模型的汉语连续语音识别系统 电子与信息学报 2002.7

[4] 王昱 语音识别自适应技术的研究与实现 硕士学位论文 2000.5

[5] 雷静 语音识别技术的研究及基本实现 硕士学位论文 2002.3.1

[6] 陈荔龙 连续语音识别搜索算法的研究与应用 硕士学位论文 2002.3.1

[7] 王志强 基于GMM的声音信号分类器研究 硕士学位论文 2003.6.30

[8] 曹枝墙 自动语音应答系统的设计与实现 硕士学位论文 2004.2.1

[9] 王越 基于HMM模型的嵌入式语音识别软件研究 硕士学位论文 2003.3.1

[10]张军 抗噪声语音识别技术的研究 博士学位论文 2003.5.1

[11]王宁 基于音素的特定人大词汇量汉语语音识别算法研究硕士学位论文 2002.2.1

[12]盛青 语音自动识别技术(ASR)及其软件实时实现 硕士学位论文 2001.3.1

[13]Sun公司 Java speech API programmer’s guide 开发指南 1998.10.26

本文地址:http://com.8s8s.com/it/it32584.htm