小组动态

nav_bar

年小组动态

其它年份小组动态

我组博士生王俊珏学术论文被计算机顶级会议AAAI2024接收

AAAI由美国人工智能协会主办，是人工智能和机器学习领域的顶级会议，据最新中国计算机学会/清华大学计算机学科群推荐国际学术会议和期刊目录，AAAI 为人工智能领域的 A 类会议。AAAI2024 共接收 9862 篇投稿，接收论文 2342 篇，接受率仅为 23.7%。


图1：EarthVQA数据集的城市和乡村样本（遥感影像-语义标注-QA对）。问答对根据城市规划需求而设计，包括判断题、计数题、地物状态题、综合分析题等。该多模态-多任务数据集提出了新的挑战，需要地物对象关系推理和知识总结。

中稿论文在LoveDA (NeurIPS 2021) 数据集基础上进一步扩展，1：扩展至6000张影像，2：新增“操场”地物类别，3：新增城市规划相关的20万个文本问答对，形成“影像-语义-问答”多模态EarthVQA数据集。同时，为了推进实用性多模态地球视觉问答发展，设计语义对象感知的视觉框架（SOBA），将语义分割像素级提示作为推理问答重要基础，实现更加精细复杂的空间语义关系推理，使得视觉问答在实际地学应用场景的变得可能。


图2：SOBA 的架构包括 (a) 用于视觉提示的深度语义分割；(b) 基于对象感知的混合注意力；(c) 对象计数增强优化。

通过多模态EarthVQA数据集与SOBA二阶段视觉问答框架，该工作在“数据-信息-知识”的多层次场景理解任务中迈出第一步。

end_bar