数据库架构选型与落地，看这篇就够了

作者&投稿：之顺（若有异议请与网页底部的电邮联系）

随着时间和业务的发展，数据库中的数据量增长是不可控的，库和表中的数据会越来越大，随之带来的是更高的磁盘、 IO 、 系统开销 ，甚至性能上的瓶颈，而单台服务器的 资源终究是有限 的。

因此在面对业务扩张过程中，应用程序对数据库系统的 健壮性 ， 安全性 ， 扩展性 提出了更高的要求。

以下，我从数据库架构、选型与落地来让大家入门。

数据库会面临什么样的挑战呢？

业务刚开始我们只用单机数据库就够了，但随着业务增长，数据规模和用户规模上升，这个时候数据库会面临IO瓶颈、存储瓶颈、可用性、安全性问题。

为了解决上述的各种问题，数据库衍生了出不同的架构来解决不同的场景需求。

将数据库的写操作和读操作分离，主库接收写请求，使用多个从库副本负责读请求，从库和主库同步更新数据保持数据一致性，从库可以水平扩展，用于面对读请求的增加。

这个模式也就是常说的读写分离，针对的是小规模数据，而且存在大量读操作的场景。

因为主从的数据是相同的，一旦主库宕机的时候，从库可以 切换为主库提供写入 ，所以这个架构也可以提高数据库系统的 安全性 和 可用性 ；

优点：

缺点：

在数据库遇到 IO瓶颈 过程中，如果IO集中在某一块的业务中，这个时候可以考虑的就是垂直分库，将热点业务拆分出去，避免由 热点业务 的 密集IO请求 影响了其他正常业务，所以垂直分库也叫 业务分库 。

优点：

缺点：

在数据库遇到存储瓶颈的时候，由于数据量过大造成索引性能下降。

这个时候可以考虑将数据做水平拆分，针对数据量巨大的单张表，按照某种规则，切分到多张表里面去。

但是这些表还是在同一个库中，所以库级别的数据库操作还是有IO瓶颈（单个服务器的IO有上限）。

所以水平分表主要还是针对 数据量较大 ，整体业务 请求量较低 的场景。

优点：

缺点：

四、分库分表

在数据库遇到存储瓶颈和IO瓶颈的时候，数据量过大造成索引性能下降，加上同一时间需要处理大规模的业务请求，这个时候单库的IO上限会限制处理效率。

所以需要将单张表的数据切分到多个服务器上去，每个服务器具有相应的库与表，只是表中数据集合不同。

分库分表能够有效地缓解单机和单库的 性能瓶颈和压力 ，突破IO、连接数、硬件资源等的瓶颈。

优点：

缺点：

注：分库还是分表核心关键是有没有IO瓶颈 。

分片方式都有什么呢？

RANGE（范围分片）

将业务表中的某个 关键字段排序 后，按照顺序从0到10000一个表，10001到20000一个表。最常见的就是 按照时间切分 （月表、年表）。

比如将6个月前，甚至一年前的数据切出去放到另外的一张表，因为随着时间流逝，这些表的数据被查询的概率变小，银行的交易记录多数是采用这种方式。

优点：

缺点：

HASH（哈希分片）

将订单作为主表，然后将其相关的业务表作为附表，取用户id然后 hash取模 ，分配到不同的数据表或者数据库上。

优点：

缺点：

讲到这里，我们已经知道数据库有哪些架构，解决的是哪些问题，因此， 我们在日常设计中需要根据数据的特点，数据的倾向性，数据的安全性等来选择不同的架构 。

那么，我们应该如何选择数据库架构呢？

虽然把上面的架构全部组合在一起可以形成一个强大的高可用，高负载的数据库系统，但是架构选择合适才是最重要的。

混合架构虽然能够解决所有的场景的问题，但是也会面临更多的挑战，你以为的完美架构，背后其实有着更多的坑。

1、对事务支持

分库分表后（无论是垂直还是水平拆分），就成了分布式事务了，如果依赖数据库本身的分布式事务管理功能去执行事务，将付出高昂的性能代价（XA事务）；如果由应用程序去协助控制，形成程序逻辑上的事务，又会造成编程方面的负担（TCC、SAGA）。

2、多库结果集合并 （group by，order by）

由于数据分布于不同的数据库中，无法直接对其做分页、分组、排序等操作，一般应对这种多库结果集合并的查询业务都需要采用数据清洗、同步等其他手段处理（TIDB、KUDU等）。

3、数据延迟

主从架构下的多副本机制和水平分库后的聚合库都会存在主数据和副本数据之间的延迟问题。

4、跨库join

分库分表后表之间的关联操作将受到限制，我们无法join位于不同分库的表（垂直），也无法join分表粒度不同的表（水平），结果原本一次查询就能够完成的业务，可能需要多次查询才能完成。

5、分片扩容

水平分片之后，一旦需要做扩容时。需要将对应的数据做一次迁移，成本代价都极高的。

6、ID生成

分库分表后由于数据库独立，原有的基于数据库自增ID将无法再使用，这个时候需要采用其他外部的ID生成方案。

一、应用层依赖类（JDBC）

这类分库分表中间件的特点就是和应用强耦合，需要应用显示依赖相应的jar包（以Java为例），比如知名的TDDL、当当开源的 sharding-jdbc 、蘑菇街的TSharding等。

此类中间件的基本思路就是重新实现JDBC的API，通过重新实现 DataSource 、 PrepareStatement 等操作数据库的接口，让应用层在基本不改变业务代码的情况下透明地实现分库分表的能力。

中间件给上层应用提供熟悉的JDBC API，内部通过 sql解析 、 sql重写 、 sql路由 等一系列的准备工作获取真正可执行的sql，然后底层再按照传统的方法（比如数据库连接池）获取物理连接来执行sql，最后把数据 结果合并 处理成ResultSet返回给应用层。

优点

缺点

二、中间层代理类（Proxy）

这类分库分表中间件的核心原理是在应用和数据库的连接之间搭起一个 代理层 ，上层应用以 标准的MySQL协议 来连接代理层，然后代理层负责 转发请求 到底层的MySQL物理实例，这种方式对应用只有一个要求，就是只要用MySQL协议来通信即可。

所以用MySQL Navicat这种纯的客户端都可以直接连接你的分布式数据库，自然也天然 支持所有的编程语言 。

在技术实现上除了和应用层依赖类中间件基本相似外，代理类的分库分表产品必须实现标准的MySQL协议，某种意义上讲数据库代理层转发的就是MySQL协议请求，就像Nginx转发的是Http协议请求。

比较有代表性的产品有开创性质的Amoeba、阿里开源的Cobar、社区发展比较好的 Mycat （基于Cobar开发）等。

优点

缺点

JDBC方案 ：无中心化架构，兼容市面上大多数关系型数据库，适用于开发高性能的轻量级 OLTP 应用（面向前台）。

Proxy方案 ：提供静态入口以及异构语言的支持，适用于 OLAP 应用（面向后台）以及对分片数据库进行管理和运维的场景。

混合方案 ：在大型复杂系统中存在面向C端用户的前台应用，也有面向企业分析的后台应用，这个时候就可以采用混合模式。

JDBC 采用无中心化架构，适用于 Java 开发的高性能的轻量级 OLTP 应用；Proxy 提供静态入口以及异构语言的支持，适用于 OLAP 应用以及对分片数据库进行管理和运维的场景。

ShardingSphere是一套开源的分布式数据库中间件解决方案组成的生态圈，它由 Sharding-JDBC 、 Sharding-Proxy 和 Sharding-Sidecar （计划中）这3款相互独立的产品组成，他们均提供标准化的数据分片、分布式事务和数据库治理功能，可适用于如Java同构、异构语言、容器、云原生等各种多样化的应用场景。

ShardingSphere提供的核心功能：

Sharding-Proxy

定位为透明化的 数据库代理端 ，提供封装了 数据库二进制协议的服务端版本 ，用于完成对 异构语言的支持 。

目前已提供MySQL版本，它可以使用 任何兼容MySQL协议的访问客户端 (如：MySQL Command Client, MySQL Workbench, Navicat等)操作数据，对DBA更加友好。

向 应用程序完全透明 ，可直接当做MySQL使用。

适用于任何兼容MySQL协议的客户端。

Sharding-JDBC

定位为 轻量级Java框架 ，在Java的JDBC层提供的额外服务。它使用客户端直连数据库，以jar包形式提供服务，无需额外部署和依赖，可理解为 增强版的JDBC驱动，完全兼容JDBC和各种ORM框架 。

以电商SaaS系统为例，前台应用采用Sharding-JDBC，根据业务场景的差异主要分为三种方案。

分库（用户）

问题解析：头部企业日活高并发高，单独分库避免干扰其他企业用户，用户数据的增长缓慢可以不分表。

拆分维度：企业ID分库

拆分策略：头部企业单独库、非头部企业一个库

分库分表（订单）

问题解析：订单数据增长速度较快，在分库之余需要分表。

拆分维度：企业ID分库、用户ID分表

拆分策略：头部企业单独库、非头部企业一个库，分库之后用户ID取模拆分表

单库分表（附件）

问题解析：附件数据特点是并发量不大，只需要解决数据增长问题，所以单库IO足以支撑的情况下分表即可。

拆分维度：用户ID分表

拆分策略：用户ID取模分表

问题一：分布式事务

分布式事务过于复杂也是分布式系统最难处理的问题，由于篇幅有限，后续会开篇专讲这一块内容。

问题二：分布式ID

问题三：跨片查询

举个例子，以用户id分片之后，需要根据企业id查询企业所有用户信息。

sharding针对跨片查询也是能够支持的，本质上sharding的跨片查询是采用同时查询多个分片的数据，然后聚合结果返回，这个方式对资源耗费比较大，特别是对数据库连接资源的消耗。

假设分4个数据库，8个表，则sharding会同时发出32个SQL去查询。一下子消耗掉了32个连接；

特别是针对单库分表的情况要注意，假设单库分64个表，则要消耗64个连接。如果我们部署了2个节点，这个时候两个节点同时查询的话，就会遇到数据库连接数上限问题（mysql默认100连接数）

问题四：分片扩容

随着数据增长，每个片区的数据也会达到瓶颈，这个时候需要将原有的分片数量进行增加。由于增加了片区，原先的hash规则也跟着变化，造成了需要将旧数据做迁移。

假设原先1个亿的数据，hash分64个表，现在增长到50亿的数据，需要扩容到128个表，一旦扩容就需要将这50亿的数据做一次迁移，迁移成本是无法想象的。

问题五：一致性哈希

首先，求出每个 服务器的hash值 ，将其配置到一个 0~2^n 的圆环上 （n通常取32）

其次，用同样的方法求出待 存储对象的主键 hash值 ，也将其配置到这个圆环上。

然后，从数据映射到的位置开始顺时针查找，将数据分布到找到的第一个服务器节点上。

一致性hash的优点在于加入和删除节点时只会影响到在哈希环中相邻的节点，而对其他节点没有影响。

所以使用一致性哈希在集群扩容过程中可以减少数据的迁移。

好了，这次分享到这里，我们日常的实践可能只会用到其中一种方案，但它不是数据库架构的全貌，打开技术视野，才能更好地把存储工具利用起来。

老规矩，一键三连，日入两千，点赞在看，年薪百万！

本文作者：Jensen

7年Java老兵，小米主题设计师，手机输入法设计师，ProcessOn特邀讲师。

曾涉猎航空、电信、IoT、垂直电商产品研发，现就职于某知名电商企业。

技术公众号 【架构师修行录】 号主，专注于分享日常架构、技术、职场干货，Java Goals：架构师。

交个朋友，一起成长！

浅谈数据仓库和数据挖掘本质
不仅仅在技术上在商业应用上也是如此随着新的技术和观念的不断引入传统的数据仓库技术方法有了很大的改变基于数据仓库的应用也有了新的发展每个企业的数据仓库根据企业特点不同可以采用非常灵活的选型方法进行选型设计实施本文根据一些比较新的技术特点谈谈数据仓库和数据挖掘的架构 ...

杨冰:2.8万字总结,金融核心系统数据库升级路径与场景实践
在金融核心系统数据库升级实践中，OceanBase提供了明确的路径，包括八个步骤和四种技术路径。例如，从Oracle平滑迁移至OceanBase，或者通过分布式架构和单元化设计应对大型主机DB2的挑战。数据库选型要考虑数据一致性、功能兼容和效果稳定性等因素。具体到金融场景，OceanBase在银行的跑批和交易场景中展现优势，提供...

数据库软件架构设计的要点
数据库软件架构设计，要关注哪些要点？方法\/步骤在IT系统架构设计中，数据库的设计，占据着很重要的地位。那么主要面临哪些问题，需要考虑哪些因素呢？面对数据量过大的问题，通常需要通过分片技术来解决，目前应用较多的是哈希分片。因为通过范围简单分片，可能造成各库的压力不均；而统一路由，会增加访问前...

MySQL的分布式架构提高数据库的效率和可扩展性mysql分布式
MySQL实现分布式架构，其中的集群部署比传统的单机部署更有效。MySQL集群有三种形式：MySQL NDB Cluster，MySQL InnoDB Cluster以及Percona XtraDB Cluster。MySQL NDB Cluster是一种全内存数据库，允许支持无限容量的数据集。它利用多个节点负责数据存取和处理，以提高查询速度和提高可靠性。MySQL InnoDB集群使用...

四川农商联合银行桂俊鸿:49个系统稳健运行秘诀——探索多地多活分布式...
配合向分布式架构转型,四川农商联合银行大量采用包括微服务、容器等云原生技术,这些技术为应用单元化部署的落地奠定了基础。除了对“三地四中心五节点”的支持之外,桂俊鸿表示,OceanBase的优势还包括:从2019年完成对数据库的选型,到2020年底完成基于OceanBase设计的分布式云平台“蜀信云”的建设,随后启动了新项目和存量...

云磁带库存储架构的设计与实践
在Aries磁带库存储架构中，关键在于其子系统分工明确，数据模型如Slice、Volume和Stream为不同访问模式提供支持。磁带库存储流程涉及数据流设计，通过解耦业务逻辑和磁带库，优化数据处理效率。通过物理聚集写入和位置相关取回调度，Aries确保数据高效且可靠。部署案例展示了Aries在实际中的应用，如2023年部署的2...

MySQL数据库稳定的基础架构新升级51mysql数据库
MySQL数据库：稳定的基础架构新升级 MySQL数据库一直被广泛应用于各种企业和网站的后台，是许多系统的基础架构。MySQL的稳定性、高可用性和可扩展性被不断优化，随着技术的发展，MySQL数据库也不断升级优化，提高了性能和安全性。MySQL数据库新版本：目前MySQL数据库最新版本为8.0，相比之前的版本，它拥有...

谁有关于ETL、ODS、数据库技术架构的形象一点的解释
ETL是一个过程，就是数据的抽取，转换，加载，现在中间都有个数据清洗的过程。ODS通俗将是ETL后最先进入的一个数据仓库，之前的数据可能包含DB2,SQL SERVER,ORACLE等不同类型的数据源，通过ETL后，进入统一的数据库中，这个库就是ODS，里面只是存放了清洗过后的数据，格式，编码等统一。后面会根据不同...

实时数据仓库如何做?
3.2.3方案三相对于方案二：增加ODS层落地hive，排查分析原始数据比较方便，恢复历史数据的时候可获取hive数据写入kafka，然后按原流处理的逻辑重新处理即可，只需修改数据源为历史数据对应的topic。需新增kafka写入hive逻辑需新增从hive读取数据写入kafka 需新增整条链路历史数据对应的topic ...

数据仓库与数据库的区别
2.数据质量。客户要看各种信息，肯定要准确的数据，但由于数据仓库流程至少分为3步，2次ETL，复杂的架构会更多层次，那么由于数据源有脏数据或者代码不严谨，都可以导致数据失真，客户看到错误的信息就可能导致分析出错误的决策，造成损失，而不是效益。3.扩展性。之所以有的大型数据仓库系统架构设计复杂，...

瓦房店市15622925850： 数据库系统的体系结构? - ？
永看益母： 数据库系统的体系结构是指数据库系统的整个体系的结构.数据库系统的体系结构从不同的角度可有不同的划分方式.从数据库管理系统的角度可分为三层,从外到内依次为外模式、模式和内模式. 模式是所有数据库用户的公共数据视图,是数据库中全部数据的逻辑结构和特征的描述.模式(schema)又可细分为概念模式(conceptual schema)和逻辑模式(109ical schema).希望对你有帮助.

瓦房店市15622925850： 大数据量的系统的数据库结构如何设计? - ？
永看益母： 1、把你表中经常查询的和不常用的分开几个表,也就是横向切分 2、把不同类型的分成几个表,纵向切分 3、常用联接的建索引 4、服务器放几个硬盘,把数据、日志、索引分盘存放,这样可以提高IO吞吐率 5、用优化器,优化你的查询 6、考...

瓦房店市15622925850： 哪种数据仓库架构最成功? - ？
永看益母： ”的争论一直没有休止,这个问题同时也是企业在建立DW时需要决策的关键问题.Bill Inmon的集线器架构/企业信息工厂架构(Hub and Spoke / CIF – Corporate Information Factory)与Ralph Kimball的数据集市/数据仓库总线架构(Data Mart ...

瓦房店市15622925850： 互联网架构?？
永看益母： 一、单体架构早期互联网产品用户量少,并发量低,数据量小,多数只需要单个应用服务器可以满足需要,而数据库和文件服务部署在外部单个服务器上,这就是最早互联网架构,架构单体架构的优点是容易开发、部署和测试,其缺点是系统耦...

瓦房店市15622925850： 如何成为真正的数据架构师 - ？
永看益母： 1、为什么需要构建数据结构?1)数据标准不一致2)数据模型管理混乱3)深入的性能的问题无法解决4)SQL语句编写水平不高导致出现严重性能问题5)开发人员对执行计划收悉6)上线前缺乏审计7)相对复杂的数据处理能力欠缺8...

瓦房店市15622925850： 哪种数据仓库架构最成功?Bill Inmon 或 Ralph Kimball - ？
永看益母： BI的数据仓库的架构主要有星型和雪花型两种方式.星型架构:一种使用关系数据库实现多维分析空间的模式,称为星型模式.星型模式的基本形式必须实现多维空间,以使用关系数据库的基本功能.雪花架构:当星型模式的维度需要进行规范化时,星型模式就演进为雪花模式.比如商业智能FineBI的FineCube,高性能列式存储的文件型数据库,因为采用MOLAP的形式,在大数据处理方面有不错的支撑,数据处理能力强.

瓦房店市15622925850： 怎样的架构设计才是真正的数据仓库架构 - ？
永看益母： 是数据仓库系统的基础,是整个系统的数据源泉.通常包括企业内部信息和外部信息.内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据.外部信息包括各类法律法规、市场信息和竞争对手的信息等等;数据的存储与管理是 ...

瓦房店市15622925850： 数据库结构该怎么做 - ？
永看益母： 1、数据库结构定义工具,通过结构创建或更新数据表. 同时可从现有数据库自动导出数据库结构定义. (类似PowerDesigner的数据表定义、更新功能.但使用起来更简单、功能没有PowerDesigner那么多、适合中小型数据库系统应用) 2、...

瓦房店市15622925850： 数据库应用系统体系结构有哪些选择 - ？
永看益母： 从数据库最终用户角度看,数据库系统的结构分为单用户结构、主从式结构、分布式结构、客户/服务器、浏览器/应用服务器/数据库服务器多层结构.这是数据库外部体系结构. 物理存储结构、逻辑存储结构、内存结构和实例进程结构.这是内部体系结构

瓦房店市15622925850： .net, 数据库架构应该怎么设计呢? - ？
永看益母： 根据情况.例如你想做个用户注册的功能,那么设计表就需要考虑比如学生:1.学号2.登陆用户名3.登陆密码4.年龄5.性别6.邮箱等......

你可能想看的相关专题

星空见康网

数据库架构选型与落地，看这篇就够了

你可能想看的相关专题