1. 研究目的与意义
1.论文研究内容本研究就《黄帝内经》进行词语切分、词性标注,建立《黄帝内经》文献的词汇知识库。
研究以人工标注的《黄帝内经》为研究对象,首先进行语料分析,然后分别设计基于条件随机场模型(crf)的自动分词、词性标注、分词标注一体化实验。
主要包括以下几个方面的内容:(1).汉语词类研究和发展(2)基于统计的分词标注一体化方法 a)基于crf的分词试验; b)基于crf的词性标注实验; c)基于crf的分词标注一体化实验; d)分词和标注的错误分析;2.论文研究意义中文的信息处理研究在现代汉语领域已经取得了非常丰硕的成果,先秦古汉语分词研究也有了一定的发展,但是古代中医文献于此相比还有待研究探索。
2. 文献综述
中文的信息处理研究在现代汉语领域已经取得了非常丰硕的成果,先秦古汉语分词研究也有了一定的发展,但是古代中医文献于此相比还有待研究探索。
目前,由于中医古文献的信息分词处理还停留在字处理阶段,所以,对此开发词性标注系统是十分重要的。
这不仅可以为以后的研究者提供知识获取,也可以提高语料库的使用价值。
3. 设计方案和技术路线
(1)本文所采用的语料底本是郭霭春所编著的《黄帝内经校注语译》。
分为 现代版和古文版两个版本。
(2)关于汉语词类研究的发展(3)进行主要的实验和分析:3.1基于crf的分词实验3.2基于crf的词性标注实验3.3基于crf的分词标注一体化实验3.4分词和标注错误分析
4. 工作计划
2022年7月:确定选题;2022年9月:资料查阅,编写开题报告,开题报告答辩;2022年10-11月:进行数据处理,完成初稿;2022年11-12月:完善方法,对初稿进行修改并完成定稿;2022年12月:提交论文并进行预答辩;
5. 难点与创新点
(1)本文对中医文献《黄帝内经》采用基于crf的分词和词性分析实验,使用crf将弥补人工标注的不足。
(2本研究采用基于crf的分词标注一体化的研究,在应用领域具有一定的创新性。
(3)基于字面特征的分词评测,增加语言学特征模板的分词评测等有效地体现了一体化提高了分词精度同时词性标注效果也得到了极大地提高。
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。