语音大脑DM6291平台提供离线语音识别/本地语音识别解决方案
6291平台简介:
6291平台基于MIPS芯片,运行Linux系统,支持单麦/双麦远讲识别。运行算法有:基于深度神经网络算法的本地语音识别、语音增强、语音降噪、声源定位、波束成型、本地语音合成。 |
6291平台单麦版本采用高灵敏度数字麦克风录音,利用稳态、动态噪音过滤算法,动态调整录音音量,录音降噪后通过语音增强,将高信噪比的语料数据送到识别引擎去做识别,保证了不同距离(远讲)识别的高精准度和抗噪能力。 |
6291平台双麦版本在单麦版本的基础上,增加了双麦声源定位、波束成型,利用麦克风的空域滤波特性,通过对唤醒人的角度定位,形成定向拾音波束,并对波束以外的噪声进行抑制,以保证较高的录音质量,再将录音数据做本地识别,适合真实复杂场景下的语音控制。 |
6291平台支持中文普通话识别,同时也支持方言识别,用户可以自定义学习训练唤醒词、控制指令,学习训练的内容不限制语种,不限制说话内容。学习训练成功后,语音大脑既支持已有的普通话识别,也支持学习训练的方言识别。 |
6291平台推出了卖场版本,适合嘈杂环境下的语音识别、语音控制,集成有语音大脑6291的产品,在卖场销售,同样可以演示和操作。 |
6291平台特征:
基于新的 DNN 深度神经网络识别算法,在离线的状态下支持本地识别,识别指令可达万条 | 基于语音大脑二次开发,唤醒词、语音识别内容、语音大脑参数配置,都无需开发人员编写代码,二次开发门槛更低,可以迅速将语音大脑集成到产品中 |
远场识别,远距离拾音,识别距离5米以上 | |||
识别率高达98% | 语音唤醒词和语音控制指令一句话实现,无需先说唤醒词,再说语音控制指令,比如;小艾,把客厅都打开,使用更便捷 | 语音增强,人声增强,过滤掉背景稳态噪音(电机噪音)和部分动态噪音。在卖场、会场现场都可以识别 | |||
双麦克风阵列声源定位,定向拾音波束,抑制环境噪音 | 识别不同区域不同口音的普通话/纯方言 | 误判率低,周围有人说话,不会引起误触发、误操作 | |||
中文、外文和方言同样支持,可以训练独立的声学库,定制声学模型 | 本地语音合成 | 消除设备播放的声音,实现播放时可语音识别全双工交互 |
6291硬件介绍:
1、语音大脑6291核心板主要技术指标及特点 |
CPU:频率可达到 1.5GHz,内置 64MB LPDDR. 系统存储:128MB SPI NAND FLASH。 通信UART接口:与上位机串口通讯(通信或者二次开发文本下载)。 调试UART接口:通过TTL转USB模组,接PC的串口调试助手,打印语音大脑运行日志。 DMIC接口:支持4路专用 DMIC接口的数字式麦克风。 喇叭接口:驱动不大于3W的喇叭。 USB口:用于烧写固件或供电。 GPIO口:用于GPIO、PWM、IIC通信。 | ||
1.2、语音大脑6291核心板图片 | 图为核心板布局(尺寸大小为 32X32X3mm) | ||
2、系统电源 | 语音大脑6291核心板支持3.3V~5V宽电压供电。核心板上的VBUS和VCC是导通的,可以从VBUS或者VCC上供电。 | ||
3、系统存储(NAND FLASH) | 语音大脑6291核心板使用 1片 128MB SPI NAND FLASH (默认ATO25D1GA)作为系统的存储单元。提供卓效的数据访问和存储能力。 | ||
4、UART接口 |
1、图中UART接口,是通信串口,与上位机串口通讯(通信或者二次开发文本 下载)。 2、图中DEBUG接口,通过TTL转USB模组,接PC的串口调试助手,打印语音大脑 运行日志。 | ||
5、音频系统 | 语音大脑6291音频支持数字 MIC、功放输出。 | ||
5.1、 MIC | 图中MIC接口,是数字 MIC接口,可支持4路 MIC输入。 | ||
5.2、 Speaker | 图中SPK接口,可外接不大于3W的喇叭。 | ||
6、 USB接口 | 图中USB接口,通过该接口可以进行语音大脑固件的烧录和提供核心板 5V电源。 |
6291开发接口:
1、语音大脑6291平台开发接口(单麦/双麦远讲识别): 语音大脑6291_ASR_KIT的开发接口涉及到三个文本文件:asrWordlist.txt、serialTTS.txt、config.ini。asrWordlist.txt、serialTTS.txt是编辑识别内容、合成播放内容、串口输出输入内容。config.ini是对语音大脑6291_ASR_KIT的参数配置。三个文本保存的格式为UTF-8-无BOM编码。
三个文本文件在电脑上请用UltraEdit软件编辑好后,用“语音大脑6291串口下载工具-上海华镇.exe”的工具软件下载到语音大脑电路板上,即可实现本地识别、本地合成、串口通信的自由定义。 |
2、语音大脑6291平台_方言识别开发接口: 语音大脑支持中文普通话识别,同时也支持方言识别,用户可以自定义学习训练唤醒词、控制指令,学习训练的内容不限制语种,不限制说话内容。学习训练成功后,语音大脑既支持已有的普通话识别,也支持学习训练的方言识别。 方言学习有两种模式,语音大脑同时支持此两种方式: 第一种模式就是通过串口输入对唤醒词、任意的控制指令单独学习,比如唤醒词(小艾同学)、打开照明等,需要上位机的串口对语音大脑进行控制,上位机配合按键或者触显屏,此方式较为灵活,可以对任意语音指令进行学习和删除。 第二种模式就是对唤醒词、控制指令全流程自动逐条学习,需要学习的控制指令和顺序在config里可以配置,通过语音识别“进入方言学习”后,无需人工干预,会把唤醒词和config.txt里配置的控制指令自动逐条提示用户学习,所有指令学习成功后,会自动保存方言学习并重启系统。 |
3、语音大脑6291平台_动态更新词表介绍: 语音大脑支持串口输入来动态更新识别词表,上位机编辑好数据指令,通过串口传输给语音大脑,语音大脑存储并更新到识别词表中,重启后就可以支持新编辑的指令识别和播放。 |
4、语音大脑6291平台_逻辑依赖说明: 在实际语音控制语音交互的场景里,某些指令,只有在另外的指令识别后才能识别,这样的指令之间就构成了逻辑依赖。 语音大脑里加入了逻辑依赖,分级执行,执行逻辑从0级开始作为入口,可以跳转到其它级。 句法结构为:ASR:MP3:TTS:UART:Score:基级>发射级。 1、基级只能选择一级,发射级可为多个,基级识别结束后,跳转到发射级识别。 2、入口的基级只能为“0”这个字符,结束级只能为“z”字符,其他级的编号用 数字或字母(但不能空缺,比如":",">")。 3、一个符号代表一级,z不可作为基级。 4、结束级出现,代表一个流程结束,回到只检查入口级的状态。 |
应用领域:智能家电/智能家居/智能工控等 | |
视频演示点击: 智能家居整体演示视频 语音控制灯光演示视频 语音控制空调视频演示 语音控制油烟机演示视频 语音控制智能马桶演示视频 |