非关系型数据库
# 非关系型数据库
# 数据库基本知识
# 什么是数据库
- 数据库(Database)是按照一定的数据模型来组织、存储和管理数据的仓库。
什么是数据模型?
把现实世界中的人、物、活动、概念等用【数据模型】来抽象、表示成计算机能识别和处理的数字。
数据模型是DB系统的核心和基础。
# 有哪些数据模型
- 数据库技术发展至今,传统数据库根据不同的数型,主要有以下几种:层次型、网状型和关系型
1961年通用电气公司的Charles Bachman 成功地开发出世界上第一个网状DBMS也是第一个数据库管理系统——集成数据存储(Integrated Data Store,IDS) 层次型DBMS是紧随网状型数据库而出现的。最著名最典型的层次数据库系统是IBM 公司在1968 年开发的IMS (Information Management System)网状数据库和层次数据库已经很好地解决了数据的集中和共享问题,但是在数据独立性和抽象级别上仍有很大欠缺。
- 关系数据模型
1970年,IBM的研究员E.F.Codd博士在刊物《Communication of the ACM》上发表了一篇名为“A Relational Model of Data for Large Shared Data Banks” 的论文,提出了关系模型的概念。之后提出了关系代数和关系演算的概念。后来Codd又陆续发表多篇文章,论述了范式理论和衡量关系系统的12条标准,用数学理论奠定了关系数据库的基础。
1974年,IBM的Ray Boyce和DonChamberlin将Codd关系数据库的12条准则的数学定义以简单的关键字语法表现出来,里程碑式地提出了SQL(Structured Query Language)。
关系模型有严格的数学基础,抽象级别比较高,而且简单清晰,便于理解。很快工业界就参与进来研发关系数据库系统以及SQL。
代表产品有Oracle、IBM公司的DB2、微软公司的SQLServer 以及开源的Mysql。
# 发展历程
学生借阅图书的管理系统
- 有哪些学生
- 有哪些图书
- 记录学生借书还书行为
- 分析学生借阅喜好
# 关系型数据库的特点
- 容易理解:用二维表表示
- 使用方便:通用的SQL语言
- 易于维护:丰富的完整性约束大大减低了数据冗余和数据不一致的可能性
# 大数据时代
# 大数据特性
数据量大,价值密度低,需要便宜的设备承载
- 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)
- 人类在最近两年产生的数据量相当于之前产生的全部数据量
大数据4V特征
- Volume(大量的)
- Value(价值)
- Variety(多样)
- Velocity(高速)
数据类型繁多,形式多变,需要灵活存储
- 大数据是由结构化和非结构化数据组成的
- 10%的结构化数据,存储在数据库中
- 90%的非结构化数据,它们与人类信息密切相关
处理速度快,需要高并发支持及快速扩容能力
- 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
- 1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同
# 关系型数据库的不足
- 无法适应多变的数据结构
现代网络中存在大量的半结构化、非结构化数据,针对结构化数据而设计的关 系型数据库系统来说,对这些不断变化的数据结构,很难进行高效的处理
- 高并发读写的瓶颈
当数据量达到一定规模时由于关系型数据库的系统逻辑非常复杂,使得在并发 处理时性能下降,读写速度下滑严重
- 可扩展性的限制
在现代互联网环境下,应用系统可能在短时间内出现业务量和业务类型的快速 变化,而这些变化要求支撑数据库在底层硬件和数据库设计中提供极强的扩展性。 由于关系型数据库存在类似的join操作,使得数据库在扩展方面很困难
如何解决关系型数据库在大数据时代的问题?
在大数据的时代背景下,必须对传统的关系数据库做出改变,才能适应大数据 时代的要求。
- 放松数据一致性的要求
- 改变固定的表结构
- 去除事务、关联等复杂操作
为了改变关系型数据库的不足,适应当前大数据库时代海量的非结构化数据存储的需要,一种新型数据库类型-**NoSQL(非关系型数据库)**诞生了。
# 什么是NoSQL
- NoSQL不仅仅是sql,也可以简单理解为没有sql。
- NoSQL数据库我们也称为非关系型数据模型数据库、分布式数据库。
- NoSQL数据库指的是分布式的、非关系型的、不保证遵循ACID原则的数据存储系统
# 分布式数据库特征
分布式数据库必须具有如下特征,才能应对不断增长的海量数据。
- 高可扩展性:分布式数据库必须具有高可扩展性,能够动态地增添存储节点以实现存储容量的线性扩展
- 高并发性:分布式数据库必须及时响应大规模用户的读/写请求,能对海量数据进行随机读写
- 高可用性:分布式数据库必须提供容错机制,能够实现对数据的冗余备份,保证数据和服务的高度可靠性
# NoSQL数据库特点
易扩展:
当一台服务器不够使用,可以很容易地添加一台新的服务器,只要环境配置好,就能自动使用。从一定角度来说,能够节约成本。
大数据量且高性能 nosql数据库数据基本都是在内存中,而内存的读取速度要比从硬盘中读取更快,因此nosql数据库的另一个特点就是读写数据的速度更快,查询数据响应更快。
灵活性
nosql数据库区别于传统的关系型数据库,无需为存储的数据提前设计表,创建 字段等,它可以随时根据存储的需要自定义数据格式。
高可用
nosql数据库的一大特点就是它的高可用,如果某一个服务器宕机,不会影响其 他的服务器,nosql数据库能够继续对外提供服务。