中文文本中机构名自动标注的研究.doc

  • 需要金币1000 个金币
  • 资料目录论文助手 > 高校设计 > 计算机信息 >
  • 转换比率:金钱 X 10=金币数量, 例100元=1000金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2019-03-28
  • 论文字数:8725
  • 课题出处:(abc鞠凌青)提供原创资料
  • 资料包括:完整论文

支付并下载

摘要:随着互联网不断发展,信息网络化更加的明显。 越来越多的文本信息的出现,让很多的机关单位、公司在处理这些文本信息更加的困难。一方面, 在网络上每天都有很多有价值的文本信息不断的出现; 而另一方面, 我们想要获取这些有价值的文本信息,但是由于技术的落后,获取信息的速度和量不能够达到我们理想的标准。

 对于文本信息的获取,现在出现了很多识别方法,而主要是别的对象包括了人名、地名和机构名。其中机构名称泛指机关、团体或其他企事业单位,包括学校、公司、医院、研究所和政府机关等的名称。机构名称是专有名词的一个子集,数目也特别庞大。机构名称无论是出现还是更新淘汰都特别的快,所以相比较于人名地名,机构名的识别工作量大,识别率低,达不到人们的期望。

本文中使用的CRF建模进行机构名的识别,开始时利用了大量时间搜寻大量关于机构名的中文文本句子,并且将其中的机构名进行标注。然后我们利用分词软件将已搜集的语料进行分词,再利用做的软件将已分好词的语料进行格式预处理,将词、词性和机构名的判断标识分为段落格式分列表示以便CRF模型可以合理读取。再利用CRF进行建模、训练,建立一个训练模型。最后使用CRF模型对我们准备时找到的测试语料进行测试。该方法取得了接近96%的召回率和准确率,即使在开放测试中,准确率也高达83%。

 

关键词:条件随机场;分词;格式预处理;机构名

 

目录

摘要

Abstract

1 绪论-1

1.1研究目的与意义-1

1.2国内外中文文本中机构名识别的现状-1

1.3论文组织结构-2

2 CRF的介绍和工作原理-3

2.1 CRF简介-3

2.2 CRF与其他方法对比-3

2.3 CRF的基本原理-4

2.4 CRF的使用方法-5

3 CRF的中文文本中机构名的自动标注研究-6

3.1使用CRF识别中文机构名的基本步骤-6

3.2语料收集和数据预处理-6

3.3 CRF建模-7

3.4 CRF测试-8

3.5本章小结-9

4实验结果与分析-11

4.1测试准确率、召回率以及F值-11

4.2实验结果-11

4.3实验分析-11

5 实验结果及分析-13

结    论-14

参 考 文 献-15

致    谢-16


支付并下载

提示:本站支持手机(IOS,Android)下载论文,如果手机下载不知道存哪或打不开,可以用电脑下载,不会重复扣费