关键词:
大语言模型
儿童口腔医学
口腔预防医学
口腔医学
ChatGPT
人工智能
聊天机器人
医学
摘要:
目的 探讨国内大语言模型代表ChatGLM-6B与国外大语言模型代表ChatGPT3.5在儿童口腔预防医学领域问题回答的准确性差异,为国内大语言模型在口腔医学领域的研发提供思路。方法 由儿童口腔预防专家从基础(n=35)、进阶(n=35)、深入(n=30)三个层次,提供了不同难度的共计100个常见儿童口腔预防医学领域问题,由2名医生分别输入到ChatGPT3.5和ChatGLM-6B中,并收集问题答案。由16名口腔医生按照预定义的3点Likert量表对ChatGLM-6B和ChatGPT3.5生成的答案进行评分,计算评分的平均分作为答案得分,答案得分高于2.8接受其为正确答案;答案得分低于1.4接受其为不正确答案;答案得分介于1.4~2.8,接受其为部分正确答案。比较2组生成答案的正确率及评分结果;对口腔医生评分进行一致性分析。结果ChatGPT3.5与ChatGLM-6B对100个儿童口腔预防医学领域问题的回答正确率相似:ChatGPT3.5回答正确率为68%,部分正确率为30%,不正确率为2%;ChatGLM-6B回答正确率为67%,部分正确率为31%,不正确率为2%,无统计学差异(P>0.05);ChatGPT3.5与ChatGLM-6B回答不同难度(基础、进阶、深入)问题的准确性均无统计学差异(P>0.05)。ChatGPT3.5与ChatGLM-6B回答所有问题的整体平均得分均为2.65,无统计学差异(P>0.05);ChatGPT3.5与ChatGLM-6B不同难度问题的得分:基础问题ChatGPT3.5平均得分2.66,ChatGLM-6B平均得分2.70;进阶问题ChatGPT3.5平均得分2.63,ChatGLM-6B平均得分2.64;深入问题ChatGPT3.5平均得分2.68,ChatGLM-6B平均得分2.61,均无统计学差异(P>0.05)。口腔医生评分具有一致性,评价范围为一般至中等。结论 ChatGLM-6B与ChatGPT3.5在回答儿童口腔预防医学领域问题方面均具有潜力。ChatGLM-6B在回答儿童口腔预防医学领域问题方面取得了与ChatGPT3.5相似的表现,但二者正确率均未达到预期,不能应用于临床。未来需要进一步提升大语言模型提供医疗信息的准确性和一致性,并研发适用于口腔医学领域的医疗大模型。