MongoDB基础理念及操作初探


MongoDB是一个高性能,开源,无模式的文档型数据库,它在许多场景下可用于替代传统的关系型数据库或键/值存储方式

基础概念:

NoSQL

泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。

------------------------------------------------------------------

MongoDB 的详细介绍:请点这里
MongoDB 的下载地址:请点这里

MongoDB备份与恢复

CentOS编译安装MongoDB

CentOS 编译安装 MongoDB与mongoDB的php扩展

CentOS 6 使用 yum 安装MongoDB及服务器端配置

Ubuntu 13.04下安装MongoDB2.4.3

如何在MongoDB中建立新数据库和集合

MongoDB入门必读(概念与实战并重)

《MongoDB 权威指南》(MongoDB: The Definitive Guide)英文文字版[PDF]

------------------------------------------------------------------

 

NoSQL的特点:

·分关系型

·分布式

·不提供ACID功能

 

本身常用技术特点:

·数据模型非常简单(每个记录只有单独的键

·元数据和应用数据分离

·弱一致性

其优势:

·避免不必要的复杂

对于web应用来讲,有些一致性有些多余,所以最适用于web2.0的应用场景

·高吞吐量

·高 水平扩展和低端硬件集群

·不使用关系型映射(所以使用的模型非常简单)

 

其劣势:

·不支持ACID (不能支持事物,但通常生产环境都是两种数据库结合

·功能过于简单

·没有统一的数据查询模型

 

NoSQL数据库类别:

·键值存储

·列式数据库

·文档数据库

每一行都相当于独立的文件

·图式数据库

存放的为图,有着复杂对象关系的视图,比如在社交网站存储每个用户之间的关系的时候,通常需要用这种模式进行存储

·缓存数据库系统:不具备存储能力,完全用来提供缓存,比如Memcached、Redis

 

·CAP Therorem

C,A模型:保证一致性和可用性 就是传统数据库-sql数据库

C,P模型:悲观加锁机制(最终一致性 )

A,P模型:只保证可用性 和分区容忍性 比如DNS

·ACID & BASE

主要评估于系统本身基本的可用能力 软状态 以及能实现最终一致性,分布式集群中一般都使用BASE

 

而数据一致性模型分为以下几种:

·强一致性

无论更新操作在哪个副本上执行,之后的操作都能获得一致性的数据

·弱一致性

用户对某一数据更新需要一定的时间,将由一定的时间段处于不一致状态,在这段时间内为弱一致性

·最终一致性

 

数据一致性的实现技术:

·Quorum系统 NRW策略

N:总的副本数

R:完成度操作所需要读取最少副本数

W:完成写操作所需要写入最少副本数

强制一致性 R+W>N

比如 :mysql一主两从

 

最终一致性 R+W<=N 意味着可以只读一部分节点,写可以只写一部分节点,但是它们之间不能交互,因此不能保持一致性,在此情况下系统只能最多保证最终一致性

 

两段式提交协议:2PC

分为两类节点:

·协调者进程

·参与者进程

每个事物都有可能自己去写数据,并实现持久存储,而且节点之间可以任意通信

分为两个阶段:

·请求节点

·提交阶段

每个事物的参与者进程都必须提交数据,再由协调者进程进行协调后得出最终结果才能真正意义往上提交

每个请求议案,都被列为最终议案的一部分

事物协调者将请求发送于参与者使其提交事物,于是参与者统统都提交事物(这个阶段为请求)

协调者收到请求,于是再次通知两者(参与者)使其开始提交事物(提交阶段)

协调者将所有事物进行协调处理并得出最终结果(保持最终一致性)

 

提交失败如何处理:

如果其中以个节点出现故障(不同意提交)那么所有提交事物则全部取消提交操作

 

时间戳策略:

paxos:基于选举策略来选择

 

向量时钟

 

Nosql的数据存储模型:

包含了很多种不同的技术,通常能够根据不同的机制能够把他们分为不同的流派,而最简单的分裂方式就是根据数据存储模型来进行分类

流派:

·键值存储模型:(key-value存储)只能够简单存储���值模型,而且多个键值之间不能组合使用

查找迅速

 

数据无结构,通常指被当做字符串货二进制数据

应用场景:主要实现内容缓存,处理大量数据的高访问负载,也能用户日志系统的日志写入等做内容缓存

实例:redis, Dynamo

 

·列式模型:

数据按列存储,将同一列数据存放在一起(一起可能是同一节点或同一数据集中)

优点:查找迅速因为没有特别复杂的结构模型

可扩展性强

易于实现分布式

缺点:

功能相对有限(相对sql产品来讲)

 

其应用场景:主要用于分布式存储或分布式文件系统等

实例:Bigtable,cassandra,HBase等

 

·文档模型:

数据模型:与键值型模型类似,但是vaule指向结构化数据

文档每一行被作为每一文件来存放,之所以被称为文档,比如存放一个用户的信息,存放了N个键值对:姓名 年龄 性别 一一对应一个键值对,所以一个用户的信息放在这么一个组合当中,所以它在在原有键值的基础上附加了一个容器,可以将一组键值对归类成一起,组合在一起的结果被称为文档,而我们管理的时候就以文档方式来管理,但对mongodb来讲每一个文档就相当于一行,但是文档中某个键可以有多个值

 

优点:数据格式要求不严格,无需事先定义结构;对于文档数据库来讲不需影响前有数据,而影响后续数据

缺点:查询性能不高,缺乏统一查询语法

应用场景:主要应用于web应用 (只要不要求事物 都可以使用mongodb)

实例:mongodb等

 

·图式数据库模型

数据模型:图结构模型

优点:利用图结构相关算法提高性能,满足特殊场景应用需求

缺点:实现分布式稍微困难,只能应用于某种特定环境中

应用场景:社交网络、推荐系统、关系图谱

实例:Neo4J

 

基于文档格式(JSON或BSON半结构化数据)存储

如何保证其性能:

·采用C++研发

·支持各种常见索引,包括主索引 辅助索引等

·不支持事物,每个操作都能保证强一致性

(直接在内存完成操作而后同步到磁盘上去(延迟操作)虽然比起memcached要差那么一点,但比起mysql 或 Oracle 要好太多)

·支持很好的扩展性

复制

自动sharding

有商业支持

 

MongoDB特性:

·支持基于文档的查询也就意味着我们的查询可以返回一个文档也可以返回一个游标去指向一个结果集,而后通过游标的切换而获取每个结果,并支持使用mapreduce能够实现强大的聚合操作;

·网格文件系统,能够存储单个大文件或海量小文件的分布文件系统,而文件是基于GridFS接口存储在mongodb当中;

·支持地理位置空间索引 (比如查找地理位置的索引);

·被生产环境广为验证过;

·支持动态查询,意味着查询方式可以根据自己的需求去编写查询语句;

·支持query pfofiling 支持查询的性能剖析 可以明确分析出来我们所编写的sql语句的性能如何并给我们做出建议如何去写sql语句性能才会更好;

·基于复制完成自动故障转移,复制结构中通常需要3个节点,其中任何节点他们2个之间可以通过选举协议来决定谁可以成为下一个主节点,并且会被自动提升为主节点;

 

mongodb适用场景:

·大流量网站(高并发高性能)

·适合做缓存 (因为本身就是键值存储

·高可扩展的应用场景

·适用于OBJECTS JSON 开发环境中

  • 1
  • 2
  • 3
  • 下一页

相关内容