监督微调论文 - 专知

会员服务 ·

监督微调

IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning

Arxiv

0+阅读 · 12月15日

Beyond SFT: Reinforcement Learning for Safer Large Reasoning Models with Better Reasoning Ability

Arxiv

0+阅读 · 12月1日

MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding

Arxiv

0+阅读 · 12月6日

SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs

Arxiv

0+阅读 · 12月7日

参考链接

微信扫码咨询专知VIP会员