AAAI由美国人工智能协会主办,是人工智能和机器学习领域的顶级会议,据最新中国计算机学会/清华大学计算机学科群推荐国际学术会议和期刊目录,AAAI 为人工智能领域的 A 类会议。AAAI2024 共接收 9862 篇投稿,接收论文 2342 篇,接受率仅为 23.7%。
|
图1:EarthVQA数据集的城市和乡村样本(遥感影像-语义标注-QA对)。问答对根据城市规划需求而设计,包括判断题、计数题、地物状态题、综合分析题等。该多模态-多任务数据集提出了新的挑战,需要地物对象关系推理和知识总结。
|
中稿论文在LoveDA (NeurIPS 2021) 数据集基础上进一步扩展,1:扩展至6000张影像,2:新增“操场”地物类别,3:新增城市规划相关的20万个文本问答对,形成“影像-语义-问答”多模态EarthVQA数据集。同时,为了推进实用性多模态地球视觉问答发展,设计语义对象感知的视觉框架(SOBA),将语义分割像素级提示作为推理问答重要基础,实现更加精细复杂的空间语义关系推理,使得视觉问答在实际地学应用场景的变得可能。
|
图2:SOBA 的架构包括 (a) 用于视觉提示的深度语义分割;(b) 基于对象感知的混合注意力;(c) 对象计数增强优化。
|
通过多模态EarthVQA数据集与SOBA二阶段视觉问答框架,该工作在“数据-信息-知识”的多层次场景理解任务中迈出第一步。
|