全国首推!南农王东波团队发布非物质文化遗产大语言模型

我苏客户端 2024-10-26 11:15

记者今天(10月29日)从南京农业大学了解到,该校信息管理学院王东波教授团队联合南京大学“术语与翻译跨学科研究”基地,推出全国非遗领域首个大语言模型,为非遗文化的保护与传播开辟了新路径。去年底,王东波团队还发布了全国首个古籍大语言模型“荀子”。

非遗作为中华民族丰富多彩的精神财富,长期以来主要依赖口头传播和经验传承。然而,伴随着时间的推移,许多非遗形式正面临消失的风险。王东波表示,项目旨在通过技术手段,推动传统文化的数字化、知识化和系统化,确保非物质文化遗产能够在新时代中重新焕发活力。

在非物质文化遗产领域,数据的独特性与复杂性成为了领域化大模型构建的关键挑战。为确保非遗大模型能够精准理解和运用文化遗产领域的独特知识,研究团队在数据收集阶段深入中国非物质文化遗产网,从机构、政策、资源、咨询、学术五大板块获取并整理了海量数据,涵盖了政策通知、新闻专题、学术建设及项目介绍等多维度信息。此外,团队还充分利用了学术文献数据库中的大量非遗相关期刊论文摘要,最终通过对网页内容的分类解析和期刊论文摘要的整理,构建了一个内容丰富、体量庞大的非遗领域预训练数据集。

在实现非遗知识的系统标注方面,团队建立了一个特殊的知识实体标注方案。他们通过长期的人工数据标注和校验,确保非遗数据知识的精细化标注。此外,利用超大型语言模型对已有的非遗文本数据进行转换与增强,团队成功构建了一个高质量的领域知识对话数据,为大语言模型在非遗领域的深入应用奠定了基础。

依托南京农业大学高性能算力平台,团队在现有高性能大语言模型的基础上训练了非遗领域基座大模型,并进一步构建了非遗对话大模型。这两个模型的推出不仅为非遗的传播和知识普及提供了强大的技术支持,同时,其跨语言能力也有助于打破语言障碍,推动非遗走向国际化。

更为重要的是,该模型为非遗传承人提供了更加便捷的技术支持,使其能够更好地利用新技术实现非遗的创造性转化。

“后续,对话大模型有望让更多非遗知识的研究和学习者能够更加便捷地获取非遗相关知识,更系统地研究非遗的内在逻辑和传承脉络,助力非遗的现代化发展。”王东波表示。

(江苏新闻广播/刘正则 通讯员/赵志枭 编辑/玉洁)