一种针对多语种、复杂场景下的语言数据预处理方法

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
推荐专利
一种针对多语种、复杂场景下的语言数据预处理方法
申请号:CN202511447963
申请日期:2025-10-11
公开号:CN120913580A
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及语言数据处理技术领域,且公开了一种针对多语种、复杂场景下的语言数据预处理方法,基于AutoPrep框架的多语种、复杂场景下的语音数据预处理系统,集成语音增强、语音分割、说话人聚类、目标语音提取与质量过滤五大模块,实现语音数据的自动化、结构化处理,本方案,实现了对多语种语音信号中稳态与瞬态噪声的差异化抑制,特别是在小语种(如哈萨克语、他加禄语)场景中,有效提升了语音信噪比和语音特征的语言无关性,克服了现有技术中小语种缺乏专属音系处理模块而导致音素映射错误率高的问题,增强了低资源语言数据的可用性与处理效果。
技术关键词
数据预处理方法 音频分块 语言数据处理技术 特征提取能力 场景 频谱特征 抑制突发噪声 数据预处理系统 抑制环境噪声 语音活动检测 多语种语音 异常检测技术 过滤模块 瞬态噪声 深度学习算法 残留噪声
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号