科研动态 | 光明实验室媒体智能团队综述论文被计算机领域顶级期刊录用
  • 发布时间:2025-05-29
  • 作者:光明实验室
  • 浏览:65次

近日,光明实验室媒体智能团队综述文章“A Review of Human Emotion Synthesis Based on Generative Technology”(作者:Fei Ma,Yifan Xie,Yukan Li,Ying He,Yi Zhang,Hongwei Ren,Zhou Liu,Wei Yao,Fuji Ren,Fei Richard Yu,Shiguang Ni)被情感计算领域中科院一区Top期刊IEEE Transactions on Affective Computing(影响因子:9.6)录用。该论文对人类情感合成领域的生成技术进行了全面的梳理和总结,为未来的研究提供了重要的方向和启示。


论文背景与意义

情感计算作为人工智能的重要研究方向,旨在赋予计算机系统感知、表达和响应人类情绪的能力,从而实现更具亲和力和交互性的智能体验。情感合成作为情感计算的关键任务之一,致力于通过计算方法生成具有人类情绪特征的表达形式,以增强人机交互的自然性与表现力。随着生成模型的快速发展,研究者开始探索其在面部图像、语音信号与文本内容中对情绪状态的建模与合成能力。然而,尽管近年该方向研究成果丰硕,目前仍缺乏一项全面覆盖多模态、多模型和多任务场景的系统性综述。为此,本论文对截至2024年的230余篇相关文献进行筛选和分析,旨在填补该领域综述研究的空白。

图 1 基于生成模型的人类情感合成示意图


主要内容

论文首先介绍了情感模型,以及主流生成模型的基本原理与应用现状,包括自动编码器、序列到序列模型、生成对抗网络、扩散模型和大语言模型等。随后,论文系统梳理了情感合成任务中常用的数据集,如FER2013、EmoV-DB、IEMOCAP和EmpatheticDialogues等,覆盖了视觉、语音和文本多种模态。其次,论文将人类情感合成分类为面部情感合成、语音情感合成与文本情感合成三大研究方向。在面部情感合成部分,论文回顾了‌面部重演、面部操纵与说话头生成等典型方法;在语音情感合成部分,分别介绍了情感语音转换、文本转语音与语音操控三类路径;在文本情感合成部分,则归纳出文本情感迁移与共情对话生成两类文本合成方法。此外,文章细致总结了主流的评价指标,如FID、LMD、MCD和BLEU等,帮助研究者全面理解各类方法的性能表现。最后,论文从不同生成模型在各情感合成模态中的表现、优势及不足等角度进行了系统对比,强调了复杂模型组合和整合策略对于实现高质量情感合成的重要性。

图 2 综述论文分类法


未来研究方向

论文在系统总结现有研究成果的基础上,进一步提出了多个具有前瞻性的未来研究方向。首先,未来可探索多种生成模型的融合使用,使用混合架构实现更精确的跨模态情感合成。其次,研究可向更丰富的模态扩展,如将手势、脑电(EEG)、心电(ECG)等生理信号纳入情感生成框架,并开发跨模态生成模型(文本到图像、文本到视频、文本到三维)以创造沉浸式虚拟现实和娱乐体验。此外,随着计算效率的提升,情感合成将逐步实现向边缘设备的迁移,在智能手机、可穿戴设备及VR头显等终端实现实时、个性化的情感交互,进一步增强用户与数字环境的情感连接,促进健康监测和个性化零售等领域的发展。最后,人类情感合成技术有望变革数字娱乐和影视制作领域,使虚拟角色能够真实表达情绪,提升观众沉浸感,同时为电影表演注入新的情感深度,推动基于人工智能生成内容(AIGC)的视频创作。