面向大规模数据的密度峰聚类算法研究与实现.doc

需要金币：2000 个金币
资料目录：论文助手 > 大学本科 > 工业大学 >
转换比率：金钱 X 10=金币数量，例100元=1000金币
论文格式：Word格式(*.doc)
更新时间：2019-03-18
论文字数：12531
课题出处：（小蚊子）提供原创资料
资料包括：完整论文

摘要:随着大数据时代的到来，数据信息化发展成为核心方向，取得更大的竞争优势都是围绕着数据进行展开。聚类分析通常作为数据挖掘的关键算法之一，常见的聚类分析算法易受噪声数据影响，以及类的边缘数据分类是误差较大。针对此问题，本课题面向大规模数据采用密度峰聚类算法(DPCA)进行研究分析。

本文首先概述了大规模数据的信息挖掘的基本理论，阐述了DM的基本定义，以及其操作。并介绍了DM的主要算法，以及DM的相关应用。其次，在对数据相似性的研究之上，推导了数据聚类的基本理论，并详细地阐述了DPCA算法的原理。最后，采用DPCA对数据进行了类的划分，利用局部密度和高密度点之间的距离对目标数据的密度特性进行了分析，确定了数据可划分为四类，同时也确定了四个类的中心数据点。DPCA对数据分类的结果表明，DPCA算法能对边界不明确的数据集进行划分，且仅需计算一遍，能有效地克服类边缘的噪声数据。

关键词：大规模数据；密度峰聚类；聚类分析；DPCA

摘要

Abstract

1 绪论-1

1.1 课题的研究背景及意义-1

1.2 国内外相关研究现状-2

1.3 本文主要研究内容和论文框架-3

2 大规模数据的信息挖掘概述-4

2.1 数据挖掘的定义-4

2.2 数据挖掘流程-4

2.3 数据挖掘算法-6

2.4 数据挖掘的应用-6

2.5 本章小结-7

3 聚类分析-8

3.1 相似性度量-8

3.2 聚类分析(CA)-9

3.3 基于密度峰的CA-9

3.3.1 数据密度的概念-10

3.3.2 基于密度峰聚类算法-11

3.4 本章小结-11

4 密度峰聚类在大规模数据挖掘中的应用-13

4.1 仿真软件简介-13

4.2 大规模数据的特征分析-13

4.3 面向大规模数据的DPCA-14

4.4 本章小结-16

结论-17

参考文献-18

附录A DPCA算法MATLAB代码-19

致谢-28

提示：本站支持手机（IOS，Android）下载论文，如果手机下载不知道存哪或打不开，可以用电脑下载，不会重复扣费