生活网2月4日 消息:随着近年来大型语言模型(LLMs)在语言处理领域的显著进展,研究人员尝试将这些模型应用于药物发现,以优化相关任务。然而,在药物发现的分子优化方面,LLMs并未取得显著进展。现有方法通常侧重于利用数据中提供的化学结构的模式,而忽视了领域专家的反馈和经验。这在问题上造成了困扰,因为药物发现流程涉及整合来自领域专家的反馈,以进一步完善流程。
为填补先前工作中的差距,研究人员着重于人机交互,利用强大的LLMs的交互性和通用性。他们发布了MolOpt-Instructions,这是一个用于在分子优化任务上对LLMs进行微调的大型基于指令的数据集。此数据集涵盖了与分子优化相关的任务,确保了分子之间的相似性约束和性质之间的实质性差异。此外,他们还提出了DrugAssist,这是一个基于Llama-2-7B-Chat的分子优化模型,能够通过人机对话进行交互式优化。通过这些对话,专家可以进一步引导模型并优化最初生成的结果。
为了评估,研究人员将DrugAssist与两个先前的分子优化模型和三个LLMs进行了比较,评估指标包括溶解度和BP以及成功率和有效性等。根据结果显示,DrugAssist在多属性优化方面持续取得有希望的成果,并在给定范围内保持了优化的分子性质值。
此外,研究人员还通过案例研究展示了DrugAssist的卓越能力。在零样本设置下,模型被要求同时将两个属性BP和QED的值至少增加0.1,即使在训练过程中仅暴露于数据,该模型也成功完成了任务。此外,DrugAssist还成功地将给定分子的logP值增加了0.1,即使这个属性没有包含在训练数据中。这展示了模型在零样本和少样本设置下的良好可迁移性,使用户有可能同时结合个别属性并进行优化。最后,在交互过程中,模型生成了一个不符合要求的分子的错误答案。然而,它通过人类反馈纠正了错误并提供了正确的响应。
总体而言,DrugAssist是一种基于Llama-2-7B-Chat模型的分子优化模型,能够实时与人类进行互动。它在单属性和多属性优化中展现了出色的结果,表现出很强的可迁移性。
论文地址:https://arxiv.org/abs/2401.10334?
项目地址:https://github.com/blazerye/DrugAssist