大模型辅助自动命题

核心生成技术、提示工程与模型微调

侧重于大模型生成题目的底层实现,包括Few-shot、CoT提示策略优化,以及通过微调(如T5, Llama)和流水线设计提升生成内容的结构化与指令遵循能力。

知识增强、RAG与多模态命题框架

探讨如何利用检索增强生成(RAG)、知识图谱和外部语料库解决幻觉问题,确保题目真实性,并扩展到视频、图像等多模态命题场景。

质量验证、心理测量学评估与难度预测

利用项目反应理论(IRT)、Rasch模型及模拟学生技术,对生成题目的信效度、难度、写作缺陷及区分度进行自动化分析与校验。

特定学科深度定制与跨语言应用

聚焦医疗、STEM、编程、语言教学等垂直领域,研究领域知识的准确性以及针对不同语言环境的本地化命题技术。

自动化评分、个性化反馈与教学支架

研究命题技术的下游应用,包括开放性问题判分、生成即时反馈提示(Hints)、反思性问题,以及作为教学代理(Pedagogical Agents)支持自主学习。

课程对齐、人机协作与教育伦理框架

探讨如何将AI生成内容与课程标准(Bloom分类法等)对齐,分析教师对AI工具的感知、人机协作模式及算法偏见、反作弊等伦理挑战。

大模型辅助自动命题

最终分组结果勾勒了大模型辅助自动命题的完整生态系统:从基础的提示工程与微调技术出发,通过检索增强(RAG)和多模态技术确保内容准确性与多样性;随后进入以心理测量学为核心的质量校验环节,确保试题具备科学的难度与区分度;在应用层,研究已深入特定学科定制并延伸至自动化评分与个性化支架生成;最后,通过课程对齐与人机协作框架,将技术落地于宏观教育治理与伦理监管之中。

75 篇文献,6 个研究方向
核心生成技术、提示工程与模型微调
侧重于大模型生成题目的底层实现,包括Few-shot、CoT提示策略优化,以及通过微调(如T5, Llama)和流水线设计提升生成内容的结构化与指令遵循能力。相关文献: Euigyum Kim et. al, 2025 等 11 篇文献
知识增强、RAG与多模态命题框架
探讨如何利用检索增强生成(RAG)、知识图谱和外部语料库解决幻觉问题,确保题目真实性,并扩展到视频、图像等多模态命题场景。相关文献: Nicholas X. Wang et. al, 2025 等 12 篇文献
质量验证、心理测量学评估与难度预测
利用项目反应理论(IRT)、Rasch模型及模拟学生技术,对生成题目的信效度、难度、写作缺陷及区分度进行自动化分析与校验。相关文献: Thiago Brant et. al, 2026 等 17 篇文献
特定学科深度定制与跨语言应用
聚焦医疗、STEM、编程、语言教学等垂直领域,研究领域知识的准确性以及针对不同语言环境的本地化命题技术。相关文献: Margeaux C. Johnson et. al, 2023 等 13 篇文献
自动化评分、个性化反馈与教学支架
研究命题技术的下游应用,包括开放性问题判分、生成即时反馈提示(Hints)、反思性问题,以及作为教学代理(Pedagogical Agents)支持自主学习。相关文献: Sahana Bhaskar et. al, 2025 等 10 篇文献
课程对齐、人机协作与教育伦理框架
探讨如何将AI生成内容与课程标准(Bloom分类法等)对齐,分析教师对AI工具的感知、人机协作模式及算法偏见、反作弊等伦理挑战。相关文献: Farzan Karimi-Malekabadi et. al, 2025 等 12 篇文献