语音引擎在线全链路开发

我要开发同款
proginn09452110392022年11月07日
417阅读

作品详情

1、语音流量入口(pv 20亿+),同客户端是 http 协议进行交互,主要模块包括 proxy 和 controller、tts 引擎、文本服务。内部模块是通过 rpc 协议来进行通信。架构层面(proxy + controller),主要功能是进行集群管理和导流,有一些还有一些缓存的逻辑,最近主要实现了包括本地缓存、内存级 lru 缓存,以及 redis 缓存的多级缓存策略,并且基于发音人做同集群下的发音人导流,由于复杂的缓存机制,会在时间纬度上进行打散进行操作。
语音合成服务业务层主要分为前端和后端,考虑到前后端服务资源使用不耦合,以及便于上线和维护方面的原因,把两个模
块拆分成两个服务各自维护,拆分后后端服务单机 qps 提升。前端部分主要负责文本服务架构维护,以及前端内核功能开发。
开发切句逻辑,裁剪链路,从组件和模块纬度优化加载、上线资源,单机 qps 提升,降低首包响应时间,提升上线效率。增加
长文本合成能力,以及内核重构,支持粤语、日语等多语种能力。后端部分主要是修复引擎 badcase和 bug,subrnn 工程代码
开发以及自动化上线,配置派生沙盒,开放平台和线上容器,规范和简化上线流程。
2、离线引擎主要是支持无网、弱网情况下的语音合成功能,包括前端文本模块,声学参数预测、声码器部分,以动态库的形式
在各平台编译,提供给 sdk 集成,在多个产品线间使用。
本人主要负责离线语音合成引擎的C++开发,在各个平台上(andorid、ios、linux等)编译提供离线 so 库支持,负责引擎前
端、声学参数预测、以及声码器各模块需求开发,采用流式的方式工业化业内第一款神经网络声码器,助力个性化项目入围百
度最高奖前十名。设计产品线间音库授权链路,重构、归一化多版本引擎架构,开发可插拔的唇动功能,为离线虚拟人项目奠
定基础。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论