多模态图像翻译系统演示

12月 3, 2025

本视频展示了一款多功能的智能多模态图像定位与翻译系统（PATIMT）。针对传统图像翻译中排版极易错乱、图文空间对齐困难的问题，本系统不仅支持细粒度的框选区域局部翻译，还能实现精准的全图定位翻译。无论是处理排版密集的专业医学长图，还是复杂的图文混合文档，模型都能在精准翻译并渲染图像的同时，灵活输出包含精确空间坐标的结构化JSON数据，助力高质量多模态对齐图谱的构建与端到端跨语言视觉任务的高效落地。

视频详情

本视频展示了课题组最新研发的多模态图像翻译系统 PATIMT 的前端交互界面（基于 Gradio）及其核心功能。演示以一张复杂的医学科普长图（先天性心脏病）为例，直观呈现了系统在处理图文排版密集型输入时的强大性能。

视频重点展示了系统的两大核心模式：

局部框选翻译：用户可通过鼠标在图像上自由拖拽生成边界框，系统能够精准识别所选区域内的文本，并提供高质量的目标语言（如中译英）翻译结果。
全图定位翻译：一键处理整张复杂图像。系统不仅能在视觉层面上将原图中的文本替换为目标语言并尽可能保留原有的排版风格，还能在后台输出结构化的 JSON 格式数据。该 JSON 数据详细记录了每个文本块的空间坐标 (bbox_2d)、原文内容 (text_content) 以及翻译结果 (translation)，实现了文本内容与视觉空间位置的精准对齐。

知识背景

在传统的工作流中，图像翻译通常依赖于级联系统，即先使用光学字符识别（OCR）提取文本，再调用机器翻译模型进行文本翻译，最后通过图像渲染技术将译文覆盖回原图。这种分离的架构容易导致误差累积，且在处理复杂排版、非标准字体或依赖视觉上下文消除歧义的文本时，往往力不从心。

多模态机器翻译与视觉定位旨在打破这种壁垒。

本演示中的 PATIMT 系统展示了多模态大模型在端到端图像翻译任务中的潜力。其不仅具备深度的跨语言理解能力，更重要的是引入了强大的视觉定位机制。这意味着模型不仅“知道”文字的意思，还“知道”这些文字在图像中的精确空间坐标。

系统输出的带坐标信息的 JSON 数据具有极高的学术与工程价值：

可解释性与精准渲染：坐标数据使得下游的渲染模块能够像素级地将译文贴合回原文本位置，极大提升了排版还原度。
丰富的数据沉淀：为构建高质量的多模态图文对齐数据集、辅助视觉问答或进一步训练跨模态检索模型提供了干净的结构化数据支持。

多模态图像翻译系统演示

视频详情

知识背景

语言智能技术课题组

Language Intelligence Technology