Recent advancements in text-to-image generative models have improved narrative consistency in story visualization. However, current story visualization models often overlook cultural dimensions, resulting in visuals that lack authenticity and cultural fidelity. In this study, we conduct a comprehensive multicultural analysis of story visualization using current text-to-image models across multilingual settings on two datasets: FlintstonesSV and VIST. To assess cultural dimensions rigorously, we propose a Progressive Multicultural Evaluation Framework and introduce five story visualization metrics, Cultural Appropriateness, Visual Aesthetics, Cohesion, Semantic Consistency, and Object Presence, that are not addressed by existing metrics. We further automate assessment through an MLLM-as-Jury framework that approximates human judgment. Human evaluations show that models generate more coherent, visually appealing, and culturally appropriate stories for real-world datasets than for animated ones. The generated stories exhibit a stronger alignment with English-speaking cultures across all metrics except Cohesion, where Chinese performs better. In contrast, Hindi ranks lowest on all metrics except Visual Aesthetics, reflecting real-world cultural biases embedded in current models. This multicultural analysis provides a foundation for future research aimed at generating culturally appropriate and inclusive visual stories across diverse linguistic and cultural settings.


翻译:近期文本到图像生成模型的进展提升了故事可视化中的叙事一致性。然而,当前的故事可视化模型常忽视文化维度,导致生成的视觉内容缺乏真实性与文化保真度。本研究基于FlintstonesSV和VIST两个数据集,在多语言环境下对现有文本到图像模型进行了全面的跨文化故事可视化分析。为系统评估文化维度,我们提出了渐进式跨文化评估框架,并构建了五个现有指标未涵盖的故事可视化评估指标:文化适宜性、视觉美学、连贯性、语义一致性与对象存在性。我们进一步通过模拟人类判断的MLLM-as-Jury框架实现了自动化评估。人工评估表明,相较于动画数据集,模型在现实世界数据集上能生成更连贯、视觉吸引力更强且文化适配度更高的故事。除连贯性指标外(该指标上中文表现更优),生成故事在所有指标上均与英语文化背景呈现更强关联性。相比之下,印地语在除视觉美学外的所有指标上均表现最低,这反映了当前模型中存在的现实文化偏见。本跨文化分析为未来在不同语言文化背景下生成文化适配且包容的视觉故事研究奠定了基础。

0
下载
关闭预览

相关内容

【NeurIPS2025】迈向开放世界的三维“物体性”学习
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员