arXiv Open Access 2026

Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

Yuechen Jiang Enze Zhang Md Mohsinul Kabir Qianqian Xie Stavroula Golfomitsou +2 lainnya

Lihat Sumber

Abstrak

Recent advances in vision-language models (VLMs) have improved image captioning for cultural heritage. However, inferring structured cultural metadata (e.g., creator, origin, period) from visual input remains underexplored. We introduce a multi-category, cross-cultural benchmark for this task and evaluate VLMs using an LLM-as-Judge framework that measures semantic alignment with reference annotations. To assess cultural reasoning, we report exact-match, partial-match, and attribute-level accuracy across cultural regions. Results show that models capture fragmented signals and exhibit substantial performance variation across cultures and metadata types, leading to inconsistent and weakly grounded predictions. These findings highlight the limitations of current VLMs in structured cultural metadata inference beyond visual perception.

Topik & Kata Kunci

cs.CV cs.CL cs.MM

Penulis (7)

Yuechen Jiang

Enze Zhang

Md Mohsinul Kabir

Qianqian Xie

Stavroula Golfomitsou

Konstantinos Arvanitis

Sophia Ananiadou

Format Sitasi

APA MLA BibTeX

Jiang, Y., Zhang, E., Kabir, M.M., Xie, Q., Golfomitsou, S., Arvanitis, K. et al. (2026). Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images. https://arxiv.org/abs/2604.07338

Akses Cepat

Lihat di Sumber

Informasi Jurnal

Tahun Terbit: 2026
Bahasa: en
Sumber Database: arXiv
Akses: Open Access ✓