复旦大学团队发布中文医疗健康个人助手DISC-MedLLM 单轮问答和多轮对话均表现亮眼

2023-09-01 18:01:32 站长之家网络整理0

生活网9月1日消息:复旦大学数据智能与社会计算实验室（FudanDISC）发布了中文医疗健康个人助手DISC-MedLLM。该模型在单轮问答和多轮对话的医疗健康咨询评测中表现出色，相比已有医学对话模型具有明显优势。课题组同时公开了包含47万高质量监督微调样本的DISC-Med-SFT数据集，以及模型参数和技术报告。

DISC-MedLLM的三大特点:

1）可靠丰富的专业知识，基于医学知识图谱采样获得;

2）多轮对话的问询能力，基于真实咨询对话重建;

3）对齐人类偏好的回复，通过筛选生成高质量小样本指导模型。DISC-Med-SFT数据集利用通用大模型的语言能力，围绕这三个方面进行针对性强化。

主页地址:https://med.fudan-disc.com

Github 地址:https://github.com/FudanDISC/DISC-MedLLM

技术报告:https://arxiv.org/abs/2308.14346

研究团队采用两阶段训练方法。第一阶段使用MedDialog、cMedQA2等数据集进行监督微调，同时加入通用数据集增强语言表达能力。第二阶段使用行为偏好小样本数据集进行微调，进一步提高模型表现。

在单轮问答评测中，DISC-MedLLM在零样本设置下表现强劲，在小样本设置下仅次于GPT-3.5，优于专业医学问答模型HuatuoGPT。在多轮对话评测中，研究团队采用多种策略构建高质量的DISC-Med-SFT数据集:

1）重构AI医患对话。从MedDialog和cMedQA2中抽取样本，使用GPT-3.5重构对话，调整回复风格使其符合AI助手。

2）知识图谱问答。基于医学知识图谱CMeKG进行三元组采样，生成专业医学问答样本。

3）行为偏好样本。人工筛选MedDialog和cMedQA2中的高质量样本，使用GPT-3.5生成符合人类行为偏好的样本。

4）通用数据。加入通用数据集样本，增强模型基础语言能力。

5）问答样本。使用英文医学问答数据集生成中文医学问答样本。

研究人员计算真实咨询分布，以此指导样本构造，并利用回路和人在回路两种思路生成样本，使数据集质量和多样性显著提高。

DISC-MedLLM弥补了现有模型在医疗知识、对话技能和人类偏好方面的不足，展示了构建高质量领域特定数据集以及数据集驱动方法培训专业对话模型的有效性。

--结束END--

举报投诉请发送至: 邮箱/1585958358@qq.com QQ/

本文标题: 复旦大学团队发布中文医疗健康个人助手DISC-MedLLM 单轮问答和多轮对话均表现亮眼

更多>最新的资讯

• 专业批发鞋子的网站有哪些	• 外贸尾单货源进货渠道是哪里
• ‌外贸原单正品尾货批发在哪里进货	• 广州尾货3元5服装批发市场哪里找
• 广州最大的尾货服装批发市场是哪一个	• 广州服装尾货处理最便宜的在哪里拿货
• 广州高端女装品牌批发市场在哪里	• 广州中高档服装批发市场在哪里
• 中山哪里有尾货服装市场	• 广州最大的批发袜子地方在哪里

抖音16级粉丝灯牌要多	抖音小店认证怎么开店
抖音号如何快速到1000	抖音带货口碑分和商家