基于Hadoop的大文件安全上传技术研究


云计算是下一代网络发展的核心技术之一,是大数据时代的战略性新兴技术.随着研究的不断深入,云计算已经从当初提出的一个抽象的概念演变成一项成熟的商用技术.云计算数据的处理和存储都在云平台上进行,计算资源的拥有者与使用者相分离是云计算模式的固有特点,由此而产生的用户对自己数据安全属性的担忧是不可避免的.

具体来说,用户数据甚至包括涉及隐私的内容在远程计算、存储、通信过程中都有被泄露的可能,也存在由于断电或宕机等故障引发的数据丢失问题,甚至对于不可靠的云服务提供商,还可能通过对用户行为的分析推测,获取用户的隐私信息.这些问题和矛盾引发了用户对云服务的质疑,影响了云计算技术的发展和推广.

云计算平台Hadoop作为对Google云计算(包括GFS、MapReduce等)的开源实现,目前正得到国内外互联网企业的青睐,很多公司都在使用Hadoop来实现一些核心业务.Hadoop由 HDFS(Hadoop Distributed File System)、MapReduce、HBase、Hive 和 ZooKeeper 等成员组成.其中,HDFS 和 MapReduce 是两项最关键的技术.Hadoop在设计和实现的过程中,包含了对数据存储的强大能力,所采用的分布式文件系统HDFS能够很有效的存储大量数据,实现将用户的文件数据通过网络进行分布式存储. 它的主要思想来源于 GFS(Google File System),HDFS 与当前现存的分布式文件系统有着许多共同之处,但也有着一些非常重要特点:HDFS支持高容错且可以部署在成本很低的传统计算机上;它可以和MapReduce编程模型很好地结合,提供高吞吐量的访问,所以非常适用于一些具有大量数据处理的应用程序.

但是,由于Hadoop安全机制的薄弱,致使用户在使有该平台时存在许多安全性方面的问题,如:用户认证问题、数据结点认证问题、文件存储与传输的机密性问题.当前,针对用户在使用HDFS文件系统进行大文件上传的过程,设计一种可靠、方便、快速的安全方案,保证文件数据的安全属性,具有很强的现实意义.

具体研究内容如下:

1、研究HDFS文件系统的架构体系,分析文件的分块上传/多点备份的实现机理;

2、研究Hadoop中的安全机制,分析其中的安全隐患,提出相应 的解决方案;

3、研究Hadoop的开源代码,结合安全解决方案,改进Hadoop的API;

4、运用MapReduce编程模型,提出一种快速的分布式加密方案;

5、结合Java等编程技术,实现安全云盘系统,实现方案的演示认证.

……

……

……

待续……

相关内容