大型语言模型在基因关系和通路知识挖掘中的综合评价
•
2024-09-04 10:32:06
摘要 了解复杂的生物通路(例如基因间相互作用和基因调控网络)对于探索疾病机制和推进药物开发至关重要。然而,这些通路的人工文献整理无法跟上发...
了解复杂的生物通路(例如基因间相互作用和基因调控网络)对于探索疾病机制和推进药物开发至关重要。然而,这些通路的人工文献整理无法跟上发现的指数级增长。在大量文本语料库上训练的大规模语言模型 (LLM) 包含丰富的生物信息,可以用作通路整理的生物知识图谱。
近期,定量生物学杂志 发表了一篇题为《大型语言模型在基因关系和通路知识挖掘中的综合评估》的研究。该研究评估了 21 个大型语言模型(LLM),包括基于 API 的模型和开源模型,以评估它们检索生物知识的能力。评估的重点是预测基因调控关系(激活、抑制和磷酸化)和识别通路中的基因成分,使用京都基因和基因组百科全书(KEGG)通路作为基本事实,如图 1 所示。
结果显示,模型性能存在显著差异,基于 API 的模型优于开源模型。研究结果表明,虽然 LLM 在基因网络分析和通路映射方面具有重要意义,但它们的有效性各不相同,因此需要谨慎选择模型。GPT-4 和 Claude-Pro 在预测基因调控关系方面表现最佳,与其他模型相比,其精确度和召回率更高。这项研究强调了为生物研究中的特定任务选择合适的计算工具的重要性。它还提供了一个案例研究,说明了 LLM 作为数据挖掘知识图谱的用途。
版权声明:本文由用户上传,如有侵权请联系删除!
标签: