深入理解 Hadoop 序列化

文章由LinuxBoy分享于2020-04-04 11:04:31热评（52）

深入理解 Hadoop 序列化

1.序列化概述

　　1.1 什么是序列化

　　　　序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输；

　　　　反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象；

　　1.2 为什么要序列化

　　　　一般来说，“活的”对象只生存在内存中，关机断电就没有了；而且“活的”对象只能由本地的进程使用，不能发送到网络上的另外一台计算机；然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机；

　　1.3 为甚不用Java的序列化

　　　　Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种效验信息，Header，继承体系等），不便于在网络中高效传输，所以，Hadoop自己开发了一套序列化机制（Writable）;

　　1.4 hadoop序列化特点

　　　　1.4.1 紧凑：高效使用存储空间；

　　　　1.4.2 快速：读写数据的额外开销小；

　　　　1.4.3 可扩展：随着通信协议的升级而可升级；

　　　　1.4.4 互操作：支持多语言的交互；

2.自定义bean对象实现序列接口（Writable）

　　在企业开发中往往常用的基本序列化类型不能满足所有需求，比如在hadoop框架内部传递一个bean对象，那么该对象就需要实现序列化接口；

　　2.1 必须实现Writable接口；

　　2.2 反序列化，需要反射调用空参构造函数，所以必须有空参构造；

https://www.linuxboy.net/topicnews.aspx?tid=13
linuxboy的RSS地址：https://www.linuxboy.net/rssFeed.aspx
本文永久更新链接地址：https://www.linuxboy.net/Linux/2020-03/162761.htm

推荐文章：

深入理解 Hadoop 序列化