大语言模型 (LLM) 已应用于医疗保健和医学等专业领域。尽管有各种为健康环境量身定制的开源 LLM,但将通用 LLM 应用于医学领域仍存在重大挑战。近日,法国阿维尼翁大学(Avignon Université )、南特大学(Nantes Université)和 Zenidoc 的研究团队开发了 BioMistral,一个专为生物医学领域量身定制的开源 LLM,利用 Mistral 作为其基础模型,并在 PubMed Central 上进行了进一步的预训练。研究人员根据由 10 项既定的英语医学问答 (QA) 任务组成的基准对 BioMistral 进行了全面评估。还探索通过量化和模型合并方法获得的轻量级模型。结果证明了 BioMistral 与现有开源医疗模型相比具有卓越的性能,并且与专有模型相比具有竞争优势。最后,为了解决英语以外的数据有限的问题,并评估医学 LLM 的多语言泛化能力,自动将该基准翻译和评估为 7 种其他语言。这标志着医学领域 LLM 的首次大规模多语言评估。