028-86922220

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

SkyHackthon比赛指北-ASR篇-创新互联

写在前面

本系列具体介绍可以参见基础篇。这篇是系列第二篇,篇幅相较于基础篇会比较短,因为 Nemo 真的是一个很好用的库。

创新互联专注于企业网络营销推广、网站重做改版、攀枝花网站定制设计、自适应品牌网站建设、H5高端网站建设商城网站定制开发、集团公司官网建设、外贸营销网站建设、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为攀枝花等各大城市提供网站开发制作服务。

该篇主要分为三个部分:

技术介绍

ASR:自动语音识别技术,Automatic Speech Recognition 的缩写,其目的是将人的语音转化为文字。在各大社交软件以及输入法中已经是普遍可见的应用。

以 Sky Hackthon 比赛理念出发,比赛通常是构建一个可以应用于实际生活中的 AI 小工具,那么日常生活中,最为常见的沟通手段肯定就是使用对话交流。可以说, ASR 技术可以说是构建 AI应用中必不可少的一环。

在 Sky Hackthon 的比赛中,通常使用 Nemo 进行 ASR 模块的构建,从官网页面我们可以得知:

NVIDIA NeMo 是一个框架,用于借助简单的 Python 界面构建、训练和微调 GPU 加速的语音和自然语言理解 (NLU) 模型。使用 NeMo,开发者可以创建新的模型架构,并通过易于使用的应用编程接口 (API),在 NVIDIA GPU 中的 Tensor Core 上使用混合精度计算对其进行训练。

借助 NeMo,您可以构建用于实时自动语音识别 (ASR)、自然语言处理 (NLP) 和文本转语音 (TTS) 应用(例如视频通话转录、智能视频助理以及医疗健康、金融、零售和电信行业的自动化呼叫中心支持)的模型。

而正如其宣传的那样,Nemo 的使用其实真的很简单很简单,做好数据收集和模型训练,在 Sky Hackthon 一定能拿到好的结果!

数据收集与处理

机器学习与深度学习的相关人士肯定都听过一句话:数据决定上限,模型抬高下限。因此在 ASR 篇中,重点会讲如何收集与处理数据集,保证收集到足量足质的数据集。

数据要求

数据基本要求:单声道、WAV格式、44100采样率、普通话、内容完整、尽量无噪声。

数据额外要求:数据越多越好、发音尽可能多元化(主要指年龄、性别)。

数据收集方案

这里提供几个方案供大家参考,视自己情况选择方案进行数据收集。

关于 ASR 数据收集的一些小想法:

数据处理

相比于数据收集,数据的处理要简单很多,根据时间上的顺序来讲,数据处理分为以下几个步骤:

在完成上面步骤之后,数据就充分可用了,将接下来进入模型训练的环节。

模型训练与验证

比赛官方提供的 Notebook 足以完成基础的训练,以下操作是在基础训练之上,保证 ASR 部分有足够的准确率。

模型训练

当准备好数据集并放入指定位置之后,我们就要准备训练了,在这里主要讲解如何更换一个可用的模型进行训练。

模型验证

验证的思路其实比较简单:使用代码跑一遍全部的数据集,看看有多少的数据能拿到 1 分的满分,如果绝大部分数据都无法拿到 1分,我们重新检查数据集,确定数据集毫无问题之后重新训练即可。

但是,当只有小部分无法拿到 1 的满分的时候,一般都是数据上出现问题,从我个人经历出发,分为以下情况:

总结而言:使用 Nemo 训练比较省心,只要准备好数据,挑选正确的模型,就可以完成一次良好的训练。

结语

得益于使用 Nemo,ASR 的整体流程相对简单,更多的时间还是在收集数据与处理数据上,因此, ASR 部分的完全可以由一个人单独负责全部,其他人根据其指挥进行一定的数据收集协助即可。毕竟数据收集环节多一个人多一份力。

你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧


当前题目:SkyHackthon比赛指北-ASR篇-创新互联
链接地址:http://www.tsicrk.com/article/ccsphi.html

其他资讯

让你的专属顾问为你服务

1.9774s