Large Language Models (LLMs) are increasingly used for educational support, yet their response quality varies depending on the language of interaction. This paper presents an automated multilingual pipeline for generating, solving, and evaluating math problems aligned with the German K-10 curriculum. We generated 628 math exercises and translated them into English, German, and Arabic. Three commercial LLMs (GPT-4o-mini, Gemini 2.5 Flash, and Qwen-plus) were prompted to produce step-by-step solutions in each language. A held-out panel of LLM judges, including Claude 3.5 Haiku, evaluated solution quality using a comparative framework. Results show a consistent gap, with English solutions consistently rated highest, and Arabic often ranked lower. These findings highlight persistent linguistic bias and the need for more equitable multilingual AI systems in education.


翻译:大型语言模型(LLMs)在教育支持中的应用日益广泛,但其响应质量因交互语言而异。本文提出一种自动化多语言流程,用于生成、求解和评估与德国K-10课程体系对齐的数学问题。我们生成了628道数学练习题,并将其翻译为英语、德语和阿拉伯语。使用三种商用LLM(GPT-4o-mini、Gemini 2.5 Flash和Qwen-plus)分别生成各语言的逐步解题过程。由包含Claude 3.5 Haiku在内的独立LLM评审组采用比较评估框架对解题质量进行评价。结果显示存在持续性的质量差距:英语解题方案始终获得最高评分,而阿拉伯语方案常处于较低评级。这些发现揭示了语言偏见的持续存在,并表明教育领域需要更公平的多语言人工智能系统。

0
下载
关闭预览

相关内容

数学是关于数量、结构、变化等主题的探索。
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
76+阅读 · 2020年5月5日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员