中心王生进、李亚利团队博士生郑悦的论文“DivCon:基于概念序列学习的语义多样性图像描述生成”(DivCon: Learning Concept Sequences for Semantically Diverse Image Captioning)被国际声学、语音与信号处理会议(IEEE International Conference on Acoustics, Speech, and Signal Processing ,ICASSP 2023)接收为口头报告。于当地时间6月4日,郑悦赴希腊罗德参加该会议并作口头报告。
图1. DivCon模型基于概念序列生成多样性图像描述
该论文研究计算机视觉与自然语言处理交叉领域中的图像描述生成(Image Captioning)问题,解决其中生成图像描述缺乏语义多样性的问题。现有的多样性图像描述生成结果通常不区分语句中的单词多样性和语义多样性,导致生成结果可能包含大量重复或相似的语义概念。为此,郑悦等作者提出基于概念序列学习的语义多样性图像描述生成模型(DivCon)。DivCon模型能根据预测的多样性概念序列生成图像描述,由此在生成的图像描述中包含更多类别的语义概念。实验结果表明,该模型可以有效提高公开数据集上多样性图像描述生成结果具有的语义多样性,使生成结果更具有在视力障碍辅助系统等场景的实际应用潜力和价值。
ICASSP会议由电气与电子工程师协会(Institute of Electrical and Electronics Engineers,IEEE)举办,是世界上规模最大、最全面的关于信号处理及其应用的技术会议。会议内容涵盖了音频和声学信号处理、语音和语言处理、多媒体信号处理、计算机视觉和机器学习等多个方向。