Progress in image generation raises significant public security concerns. We argue that fake image detection should not operate as a "black box". Instead, an ideal approach must ensure both strong generalization and transparency. Recent progress in Multi-modal Large Language Models (MLLMs) offers new opportunities for reasoning-based AI-generated image detection. In this work, we evaluate the capabilities of MLLMs in comparison to traditional detection methods and human evaluators, highlighting their strengths and limitations. Furthermore, we design six distinct prompts and propose a framework that integrates these prompts to develop a more robust, explainable, and reasoning-driven detection system. The code is available at https://github.com/Gennadiyev/mllm-defake.


翻译:图像生成技术的进步引发了重大的公共安全隐患。我们认为伪造图像检测不应作为'黑箱'运行,理想的检测方法必须同时保证强大的泛化能力和透明度。多模态大语言模型(MLLMs)的最新进展为基于推理的人工智能生成图像检测提供了新的机遇。本研究评估了MLLMs相较于传统检测方法及人工评估者的能力,并系统阐述了其优势与局限。进一步地,我们设计了六种不同的提示模板,并提出整合这些提示的框架,以构建更鲁棒、可解释且基于推理的检测系统。代码已发布于 https://github.com/Gennadiyev/mllm-defake。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
自生成兵棋AI:基于大型语言模型的双层Agent任务规划
专知会员服务
89+阅读 · 2024年4月11日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员