基于Android的语音数据采集系统手机APP的设计实现文献综述

 2022-08-19 14:33:25

一、文献综述

  1. 国内外研究现状

随着移动互联网的迅速发展,移动终端应用也在它的驱动下迅速进步。全球将近80%的智能移动终端使用的是Android操作系统,在中国Android系统份额超过了七成,可以说占据了智能操作系统的半壁江山[1]。由于使用Android操作系统的用户较多,且具有比较大的发展空间和市场环境,所以本文选择了使用Android平台来进行语音收集的工作。

国内外使用Android进行人工智能和语音技术方面的应用十分丰富,比如有基于深度学习和语音识别技术的智能语音问答系统,将采集到的语音转换为文字,进而运用人工智能进行回答[2],针对多场景而研发的Android端翻译软件,开发出了对话翻译,同声翻译,图片翻译和会议翻译,将光学字符识别技术OCR应用到了Android中[3],根据GPS定位而提供生活服务的智能app交互系统,根据定位可为用户提供天气提醒,导航功能等服务[4]。基于语音交互的智能家居控制系统,采用语音交互方式提高物流信息的管理效率,改善用户的体验感受,使人机交互变得自然,灵活,简单,从而达到解放人们的双手用简单易用的方式来控制复杂的需求的目的。[5]以及提供课答疑和轻松愉悦的聊天氛围的智能语音课程答疑app。[6]

这些应用基于Android系统并且结合语音技术为用户提供了各种服务,改善人们的生活。将人工智能与Android有效地结合起来,使得人工智能的应用范围得到扩展。国内外有不少研究所或公司使用语料库进行语音问答,处于领头人地位的主要有清华大学、北京大学、中科院计算所、哈工大、北京语言大学等,另外研究汉语问答系统的还有香港大学、香港中文大学等单位。[7]而这些应用,绝大多是都要依靠有效的语音识别,所以如何提高语音识别的准确率和范围成了研究的焦点。提高语音识别的准确率不仅要依靠合适的人工智能算法比如循环神经网络和长短记忆网络[7]还需要有丰富的语料库作为支持。国外语音交互提供商有Nuance、微软、sensory、谷歌、苹果。国内有核心技术团队由BAT语音技术专家组成的蓦然认知,中国智能语音与人工智能产业领导者科大讯飞,国内拥有全套语音类知识产权的公司思必驰,拥有全套语音交互核心技术的创业型公司出门问问,专注物联网人工智能服务的云知声,以及百度语音、阿里云、灵云科技等。

  1. 研究主要成果

在基于Android系统的应用上有许多极具特色的软件产品,特别是近年来随着手机硬件设备和软件设备的升级,智能手机为大量手机应用的发展提供了更多的服务。韩国科学家Jeong-Kyung Moon和Jin-Mook Kim在提出了利用Android平台[8],在用户处于危险情况下将位置信息和手机状态信息发送到信息中心,以便援救人员快速地进行案情分析和出动救援。战略支援部队信息工程大学的张艳娇[8],针对现有的手机用户数据镜像提取方法实现过程复杂、通用性不强等问题,提出了一种基于 Recovery 模式的用户数据镜像提取方法。针对现有删除记录恢复方法的恢复粒度大、恢复率低等问题,提出了一种基于SQLite 内部结构的删除记录恢复方法。针对现有证据可视化关联分析方法手段单一、呈现效果不佳等问题,提出了一种基于可视化的用户数据分析取证方法。重庆警察学院李鹏超和杨鹏为解决 Android 智能手机中音频文件信息快速、准确恢复和播放问题[9],提出一种全新的技术解决方案,通过从手机数据底层着手分析,解决有效音频数据的查找、恢复和音频文件解码播放(QQ、微信语音播放)等问题。他们的设计方案可以不受反侦察手段、手机品牌及音频格式等限制,实现快速、现场对Android 手机中存储的音频文件进行取证。与常规数据恢复手段相比,他们提出的手机音频文件取证技术方案优点在于通过判断音频文件格式和类型准确、快速地找到智能手机中的已经被删除的音频文件位置,并根据格式解析音频文件结构和头部的特征码分析出音频文件出现异常的原因,对音频文件加以恢复,最后通过相应的音频解码算法将音频文件组合为手机或电脑直接可播放的形式,帮助取证人员快速获取Android 智能手机中的存储的音频电子证据。[10]

此外,Andorid手机作为便携式工具也有许多人开发了各种各样的备忘录功能,有学者研发的多媒体备忘录在传统的备忘录基础上实现了语音、图像和视频文件、定时提醒和分享功能,所有功能在android智能手机终端上测试运行正常,实用性强。[11]除了备忘录外基于Android的语音识别系统也有人进行了开发,有学者以 Android 手机开发平台为基础,通过分析 PocketSphinx 开源语音识别引擎的工作原理,提出了基于Android 的离线语音识别系统。和过去使用的网络在线语言识别系统相比,最主要优点就是成本较低、应用场合广泛,可以应用于本地语音输入法、智能玩具等。[12]对于Android用户的个人隐私泄露问题,北京邮电大学的黄炎裔进行了隐私泄露问题的研究,分别展开了组件间通信机制、安全机制与隐私泄露问题、应用组件关联与评估方法、组件关联的隐私泄露检测方法等方面的研究。对于当今Android系统更新迭代快,且各手机厂商的多媒体应用常常存在不兼容问题,德克萨斯大学阿灵顿分校的Chine Hung Liu使用云端测试平台CTP进行多机型测试[13],CTP提供了五种类型的测试,从不同的角度确保应用程序的兼容性,包括GUI测试、验收测试、压力测试、崩溃测试和安装、卸载测试。此外,为了便于识别应用程序的错误,除了测试结果之外,CTP还提供了与测试相对应的视频、屏幕截图和性能数据。此外,CTP还可以生成GUI状态图,可用于分析应用程序的行为,有助于故障诊断和调试。案例研究表明,CTP能够确保其有效性。在节省测试时间和精力的同时,确保安卓多媒体应用的兼容性。

华中师范大学鲍承毅利用Andorid手机方便携带的特点[14],为了使人们能够在碎片时间内学习开发出了基于语音媒体的移动学习系统,结合目前教师课堂语言教学情景,以及学生遇到的问题,比如:部分学生当时没听懂授课内容或过一段时间遗忘老师的讲课内容,那么设计一款语音媒体移动学习系统,将教师授课的语音资料保存起来,然后由授课人员将保存的语音媒体资料或全新的网络语音媒体课程资料上传到服务器,客户端用户(多为学生)可以浏览、下载、收听服务器上的课程。这样客户端用户就可以利用闲暇或零散的时间,来重新收听语音媒体课程或上传至服务器的那些全新的网络课程,让学习者的在学习上温故知新,巩固原有知识的基础上吸纳新知识,语音媒体移动学习系统,在带给学习者随时随地学习的全新感受的同时并提高了学习者的知识水平。[15]

在语音数据收集方面,国内有许多互联网公司也有许多成果。华为的线上众测-语音采集项目,要求用户使用智能手机,按照要求录制语音助手指定的语料,共需录制三个场景,每个场景100条语音。其激励机制为任务完成并且审核通过可获得100元京东卡。轻生活科技推出的recorder录音采集软件,用户可根据系统所给文字进行了录音,并上传到后台服务器。Magic Data公司是一家集语音数据收集,管理和提供语料的互联网公司,可按照客户指定采集方案为客户采集定制化音频数据,过滤或者提出特定属性的音频数据,例如混响高的数据。该公司现收集有山西话、粤语、四川话三种方言。泛函科技的核心业务为数据采集、数据预处理和数据标注。需要语音数据的企业可与泛函科技联系,泛函科技再通过泛函科技app把任务推送到用户的Android手机,用户通过使用Android手机并且根据任务描述进行相应场景的录制工作,其奖励机制为25块钱每小时,一般需要进行200小时的录制工作。数据堂科技股份有限公司提供了场景语音采集、多国英语语音采集、方言语音采集、唤醒词命令语音采集、口音普通话语音采集、自然对话语音采集服务、数据标注等服务。科大讯飞可以翻译22种方言包括天津话、河南话、陕西话、四川话、山东话、闽南语、粤语等方言等。并且已经将语音数据资料应用于产品推出讯飞翻译机、讯飞输入法、咪咕灵犀语音助手等产品。

  1. 发展趋势

当前以深度学习芯片、语音识别、语义理解、人脸识别等为代表的人工智能技术已经在智能手机中得到广泛应用,促进智能手机性能持续提升。未来,人工智能在智能手机中的应用呈现多传感器融合、软硬件一体化、云端协同、与VR/AR和5G等技术融合以及人机交互方式更加自然等趋势。我国要探索多传感器融合技术应用和芯片算力提升新方式,推动面向特定应用场景核心技术攻关与融合创新,加强用户隐私信息安全防护以及智能终端之间标准兼容和应用互联互通,加速以手机终端企业为核心的人工智能手机产业生态体系构建进程。同时,这些应用的普及也为语音数据收集带来了更加迫切的需求,如何进行有效的数据收集,降低数据收集的成本,提高数据质量,增加数据收集的方式决定了语音数据收集的发展前景。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。