闽音智聆智能语音处理平台系统演示

12月 4, 2025

本视频展示了课题组自主研发的“闽音智聆”智能语音处理平台。针对闽方言种类繁多、口音复杂且数字化资源匮乏的挑战，本系统构建了一套涵盖方言识别、合成、理解与对话的全栈式智能语音服务体系。系统不仅能够实现高准确度的福建方言语音转文字，还通过大模型技术赋予了机器理解方言内涵、甚至以方言进行跨时空对话的能力，为方言保护与智能化适老化服务提供了创新的技术方案。

1. 视频详情

本视频全方位演示了“闽音智聆”平台的各项核心模块及其在数字人交互中的应用场景：

多维度方言处理模块：
- 方言语音识别 (ASR)： 支持闽南话、福州话等典型方言到标准汉字的实时转换，精准捕捉地方口音。
- 方言语音合成 (TTS)： 将文字转化为带有地道韵味和情感起伏的方言语音。
- 音频内容理解： 智能分析方言音频内容，自动生成摘要、提取关键信息。
- 智能对话音频： 实现用户与模型之间的方言语音问答交互。
数字嘉庚：沉浸式方言对话系统：
- 演示重点展示了“陈嘉庚先生”数字人系统。用户可以通过语音询问关于厦大校史、抗战事迹等问题。
- 核心特性： 该模块展示了长短期记忆能力（能记住用户之前的提问）以及跨语言/跨方言理解（用户用普通话提问，数字人以地道闽南语回答），将方言 AI 技术与数字孪生、历史传承完美结合。

2. 知识背景

闽方言（包括闽南语、福州话、莆仙话等）作为汉语中最为复杂的方言区之一，被学术界称为“汉语的活化石”，具有极高的历史文化研究价值。然而，在人工智能领域，闽方言属于典型的低资源语言，面临着标注数据少、音系结构复杂（如多音调、连读变调）等技术难题。

方言大模型与语音生成技术是本系统的技术底座。

端到端方言语音建模： 课题组通过迁移学习与自监督学习技术，在有限的方言语料上实现了高鲁棒性的语音识别与合成。
多模态交互： 结合数字人（Digital Human）技术，将单纯的语音处理扩展到视觉、听觉、语言多维度的交互，这对于非物质文化遗产的数字化保护具有重要意义。
社会价值： 随着人口老龄化，许多仅使用方言的老年人面临数字鸿沟。该系统能够作为翻译器和助手，帮助方言群体更好地融入智能社会，同时也让历史人物以更亲切的方式“开口说话”。

闽音智聆智能语音处理平台系统演示

1. 视频详情

2. 知识背景

语言智能技术课题组

Language Intelligence Technology