关键词:
中医古籍
相似度计算
预训练语言模型
SimCSE
AIGC
摘要:
[目的/意义]为构建专门适用于中医古籍文本的相似度计算模型,解决BERT在中医古籍文本上语义表征困难和数据标注成本高昂的问题。[方法/过程]本文在多个模型增量预训练的基础上,利用生成式AI生成全部任务数据,结合SimCSE方法,对比不同训练方式、预训练模型、正负样本构造方法、正样本混合策略的作用。[结果/结论]研究结果显示,无监督学习模型性能普遍偏低,引入AI生成的正负样本对后性能明显提升。其中,使用AI构建的语义不同的、相似性较低的负样本,并与采用AI辅助的同义词替换方法构建的正样本混合而成的训练集上,TCM-Gujiroberta模型性能最佳,达到90.9%;此外,选择相似性较低的负样本并随机混合不同类型正样本的数据集可进一步提升模型性能。本研究在零样本情境下,设计出一种融合中医古籍知识的SimCSE相似度计算模型,可为古籍研究和应用提供支持,未来考虑在数据集构建策略方面进一步优化。