基于隐私保护的聚类挖掘的研究与实现

时间:2025-05-04

论文

本 科 毕 业 论 文

基于隐私保护的聚类挖掘的研究与实现

Research and Implementation of Privacy Preserving Clustering Mining

学院名称: 计算机科学与通信工程学院

专业班级:

学生姓名:

指导教师姓名:

指导教师职称:

论文

基于隐私保护的聚类挖掘的研究与实现

专业班级: 学生姓名:

指导老师: 职称:

摘要:随着数据库和网络技术的发展,数据在数量和复杂性上出现了很大的增长,随之出现了数据挖掘这一强有力的数据分析工具。其能发现数据中的规律,为很多领域做出了巨大贡献,应用前景广泛。然而,在很多情况下,数据持有者可能出于数据安全和敏感性等原因而不想和别人共享自身的数据,如何在私有数据不被泄露的前提下得到精确的挖掘结果也就成了当前数据挖掘的一大研究方向,称为基于隐私保护的数据挖掘。

本文既考虑在半诚实模型下又研究在恶意模型情况下的隐私保护的聚类问题,在半诚实模型下,各个方之间不存在共谋作弊现象,所以使用普通的正交变换来实现数据扰乱,实验得到扰乱前后两属性间距离不变。在恶意模型下,由于恶意方可能会中途中断协议,联合其它方作弊等,这种情况下普通的正交变换已失去了保护性,所以考虑使用随机化的方法来实现隐私保护,其先使用层次聚类算法确定初始聚类中心,然后用k-means聚类算法进行欧氏距离实验测试,最后得出误差在合理精度范围之内。实验表明所提出的方法在合理的精度下实现了垂直分布数据的隐私保护。

关键词:隐私保护;数据挖掘;聚类;垂直分布;恶意模型;半诚实模型;数据扰乱

论文

Research and Implementation of privacy preserving clustering mining

Abstract: With the development of database and network technology, the number and complexity of data grow a lot. There appears a powerful data analysis tools called data mining, which can found the law of the data. It has made tremendous contributions to many areas and it has an extensive apply prospect. But in many cases, the data holders may do not want to share their own data with others for some reasons, such as data security and sensitivity and so on. How can get accurate mining result without leaking the private data is becoming a major research direction of data mining. It is called privacy preserving data mining.

This paper considers the problem of the semi-honest model but study the cluster problem of the malicious model to the privacy protection. In the semi-honest model, each party does not cheat in conspiracy, therefore, we use ordinary orthogonal transformation to carry out the data perturbation,the experiment gets that the distance between the two unchanged. In the malicious model, as malicious may interrupt the agreement in the half way, and cheat with others and so on, in this case, ordinary orthogonal transformation has lost its protective, so we consider using random perturbation to achieve privacy protection, it first use cluster algorithm to determine the initial level of cluster center, and then use k-means cluster algorithm to carry out Euclidean distance test, finally, it gets that the error is in a reasonable accuracy. The experiments show that this method can carry out the vertical distribution of data privacy protection with reasonable accuracy.

Key words: privacy preserving; data mining; clustering; vertical distribution; malicious model;

semi-honest model; data perturbation

论文

目 录

第一章 绪 论 .......................................... 1

1.1 研究背景及意义 ................................................ 1

1.2 隐私保护数据挖掘的研究现状 .................................... 2

1.3 主要内容 ...................................................... 2

1.4 文章组织结构 .................................................. 3

第二章 隐私保护数据挖掘概述 ............................ 4

2.1 数据扰乱方法 .................................................. 4

2.2 基于密码学的技术 .............................................. 5

2.3 未来隐私技术的发展 ............................................ 7

2.4 几种安全计算模型的定义 ........................................ 7

2.5 两个基本协议 .................................................. 8

2.5.1 求和协议 .................................................. 8

2.5.2 点积协议 .................................................. 8

第三章 集中分布数据隐私保护的聚类 ....................... 9

3.1 聚类及聚类分析 ................................................ 9

3.2 基于集中分布数据的隐私保护方法:几何数据转换 ................... 9

第四章 垂直分布数据隐私保护的聚类 ...................... 13

4.1 数据分布 ..................................................... 13

4.2 聚类算法 ..................................................... 13

4.2.1 k-means聚类算法.......................................... 14

4.2.2 层次聚类算法 ............................................. 15

4.3分布式环境下隐私保护的聚类 ................................... 15

4.3.1 小型数据集的隐私保护 ..................................... 15

4.3.2大型数据集的隐私保护...................................... 17

第五章 实验及其结果 ................................... 25

5.1 集中分布数据集隐 …… 此处隐藏:11534字,全部文档内容请下载后查看。喜欢就下载吧 ……

基于隐私保护的聚类挖掘的研究与实现.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219