中文文本中机构名自动标注的研究.doc

需要金币：1000 个金币
资料目录：论文助手 > 高校设计 > 计算机信息 >
转换比率：金钱 X 10=金币数量，例100元=1000金币
论文格式：Word格式(*.doc)
更新时间：2019-03-28
论文字数：8725
课题出处：（abc鞠凌青）提供原创资料
资料包括：完整论文

摘要:随着互联网不断发展，信息网络化更加的明显。越来越多的文本信息的出现，让很多的机关单位、公司在处理这些文本信息更加的困难。一方面, 在网络上每天都有很多有价值的文本信息不断的出现; 而另一方面, 我们想要获取这些有价值的文本信息，但是由于技术的落后，获取信息的速度和量不能够达到我们理想的标准。

对于文本信息的获取，现在出现了很多识别方法，而主要是别的对象包括了人名、地名和机构名。其中机构名称泛指机关、团体或其他企事业单位，包括学校、公司、医院、研究所和政府机关等的名称。机构名称是专有名词的一个子集，数目也特别庞大。机构名称无论是出现还是更新淘汰都特别的快，所以相比较于人名地名，机构名的识别工作量大，识别率低，达不到人们的期望。

本文中使用的CRF建模进行机构名的识别，开始时利用了大量时间搜寻大量关于机构名的中文文本句子，并且将其中的机构名进行标注。然后我们利用分词软件将已搜集的语料进行分词，再利用做的软件将已分好词的语料进行格式预处理，将词、词性和机构名的判断标识分为段落格式分列表示以便CRF模型可以合理读取。再利用CRF进行建模、训练，建立一个训练模型。最后使用CRF模型对我们准备时找到的测试语料进行测试。该方法取得了接近96%的召回率和准确率，即使在开放测试中，准确率也高达83%。

关键词：条件随机场；分词；格式预处理；机构名

摘要

Abstract

1 绪论-1

1.1研究目的与意义-1

1.2国内外中文文本中机构名识别的现状-1

1.3论文组织结构-2

2 CRF的介绍和工作原理-3

2.1 CRF简介-3

2.2 CRF与其他方法对比-3

2.3 CRF的基本原理-4

2.4 CRF的使用方法-5

3 CRF的中文文本中机构名的自动标注研究-6

3.1使用CRF识别中文机构名的基本步骤-6

3.2语料收集和数据预处理-6

3.3 CRF建模-7

3.4 CRF测试-8

3.5本章小结-9

4实验结果与分析-11

4.1测试准确率、召回率以及F值-11

4.2实验结果-11

4.3实验分析-11

5 实验结果及分析-13

结论-14

参考文献-15

致谢-16

提示：本站支持手机（IOS，Android）下载论文，如果手机下载不知道存哪或打不开，可以用电脑下载，不会重复扣费