闽音智聆智能语音处理平台系统演示

  本视频展示了课题组自主研发的“闽音智聆”智能语音处理平台。针对闽方言种类繁多、口音复杂且数字化资源匮乏的挑战,本系统构建了一套涵盖方言识别、合成、理解与对话的全栈式智能语音服务体系。系统不仅能够实现高准确度的福建方言语音转文字,还通过大模型技术赋予了机器理解方言内涵、甚至以方言进行跨时空对话的能力,为方言保护与智能化适老化服务提供了创新的技术方案。


1. 视频详情

本视频全方位演示了“闽音智聆”平台的各项核心模块及其在数字人交互中的应用场景:

  • 多维度方言处理模块:
    • 方言语音识别 (ASR): 支持闽南话、福州话等典型方言到标准汉字的实时转换,精准捕捉地方口音。
    • 方言语音合成 (TTS): 将文字转化为带有地道韵味和情感起伏的方言语音。
    • 音频内容理解: 智能分析方言音频内容,自动生成摘要、提取关键信息。
    • 智能对话音频: 实现用户与模型之间的方言语音问答交互。
  • 数字嘉庚:沉浸式方言对话系统:
    • 演示重点展示了“陈嘉庚先生”数字人系统。用户可以通过语音询问关于厦大校史、抗战事迹等问题。
    • 核心特性: 该模块展示了长短期记忆能力(能记住用户之前的提问)以及跨语言/跨方言理解(用户用普通话提问,数字人以地道闽南语回答),将方言 AI 技术与数字孪生、历史传承完美结合。

2. 知识背景

闽方言(包括闽南语、福州话、莆仙话等)作为汉语中最为复杂的方言区之一,被学术界称为“汉语的活化石”,具有极高的历史文化研究价值。然而,在人工智能领域,闽方言属于典型的低资源语言,面临着标注数据少、音系结构复杂(如多音调、连读变调)等技术难题。

方言大模型与语音生成技术是本系统的技术底座。

  1. 端到端方言语音建模: 课题组通过迁移学习与自监督学习技术,在有限的方言语料上实现了高鲁棒性的语音识别与合成。
  2. 多模态交互: 结合数字人(Digital Human)技术,将单纯的语音处理扩展到视觉、听觉、语言多维度的交互,这对于非物质文化遗产的数字化保护具有重要意义。
  3. 社会价值: 随着人口老龄化,许多仅使用方言的老年人面临数字鸿沟。该系统能够作为翻译器和助手,帮助方言群体更好地融入智能社会,同时也让历史人物以更亲切的方式“开口说话”。
语言智能技术课题组
语言智能技术课题组
Language Intelligence Technology