‘酷游ku官网’对话阿里达摩院李飞飞：3次涅槃，阿里数据库的自研路

时间：2024-08-09 点击数：

本文摘要：再行到云上商业输入到服务客户的整条链路。

再行到云上商业输入到服务客户的整条链路。阿里巴巴数据库三个阶段：商用、开源、自研李飞飞谈及，阿里巴巴数据库发展到今天，并不是一蹴而就的，而是有一段艰苦的“破茧成蝶”的思索期。

第一阶段，阿里用的是商用数据库，来自IBM DB2和甲骨文。阿里早期是淘宝起家，IBM DB2和甲骨文的数据库能反对淘宝天猫较慢发展，因为那时候核心主航道就是电商，数据库就是承托角色经常出现的，当时阿里集团内部数据库的团队主要就是以传统数据库厂商的角度来解读问题。

这一阶段持续到2011年-2012年，彼时电商业务高速发展，对传统的甲骨文企业级数据库的解决方案明确提出很多挑战，最显著的挑战是成本太高，当低所发互联网电商发展到极大的规模，那个成本将是天文数字。第二阶段，双十一问世后，阿里开始大规模用于开源数据库。很多业务逻辑过于简单，而全然用于甲骨文的弊端也开始显出，例如有些业务场景无法解决问题，非常简单依赖请求甲骨文的技术人员在场解决问题的方式一是成本高，二是时效上阿里等不起。

这边出有个问题分钟级就要完全恢复，不要说道一天了，几个小时几分钟都等不起，不有可能有些核心问题解决不了给甲骨文打电话，厂商为首人来——这个模式是受到挑战的，所以阿里巴巴集团从2012、2013年后，特别是在是双十一问世以后，就开始考虑到所谓的朴素的业务驱动的逻辑，开始大规模用于开源数据库——当时就是利用中间件的形式来做到产于分表。第三个阶段，阿里云发展快速增长，自研云原生数据库问世。到了云的时代，阿里云的业务较慢发展，再加在集团业务里面，传统的产于分表中间件的解决方案，早已无法符合（非常简单业务可以）业务更加简单以后的挑战，内部自研一款云原生数据库早已迫在眉睫。POLARDB就顺势而生子了。

云数据库POLARDB是何新物种？资料表明，POLARDB 是阿里云自研的下一代关系型云数据库，100% 相容 MySQL，存储容量最低平均100 TB，性能最低提高至MySQL 的 6 倍，单库最少可扩展到 16 个节点，限于于企业多样化的数据库应用于场景。POLARDB 使用存储和计算出来分离出来的架构，所有计算出来节点分享一份数据。POLARDB基于Cloud Native（云原生）设计理念，其架构示意图及特点如下：POLARDB架构POLARDB的特点主要还包括：一写出多读书。使用分布式集群架构，一个集群包括一个主节点和最多15个读入节点（最少一个，用作确保低能用）。

主节点处置读取催促，读入节点仅有处置读书催促。主节点和读入节点之间使用Active-Active的Failover方式，获取数据库的高能用服务。计算出来与存储分离出来。

符合公有云环境下用户业务弹性拓展的刚性市场需求。数据库的计算出来节点（DB Server）仅有存储元数据，而将数据文件、Redo Log等存储于近端的存储节点（Chunk Server）。此外，POLARDB还具备分钟级备份完全恢复、秒级弹性配套能力，100%相容MySQL 5.6、MySQL 8.0、Oracle、PG等，还可以为Raft协议获取金融级低能用服务。

注意到，目前POLARDB早已在猿辅导、心动网络、百胜软件、精彩捐等平台上应用于。阿里数据库生态：四大板块，极大场景但实质上，POLARDB只是阿里数据库生态的其中一个版块。外界眼中那个“很可观很简单”的阿里数据库到底宽什么样？李飞飞做到了非常简单的辨别。

他认为，从形态上来说，分成四个版块。如图。

第一块：OLTP——关系型交易型数据库。还包括：POLARDB-X（今年将要发售的POLARDB分布式版本）：分布式关系型数据库系统，纵向拓展架构设计，应用于横跨IDC多活和双十一等低所发业务场景；POLARDB——Cloud Native数据库，基于分享存储计算出来分离出来架构的软硬件，一体化设计、弹性限配套；MySQL/PG/MSSQL/MariaDB/PPAS——开源及第三方商业数据库。第二块：OLAP——在线分析类数据库。

还包括：AnalyticDB——海量数据动态低所发在线分析云服务；Data Lake Analytics——Serverless简化的联邦数据湖交互式分析服务；TSDB——时序时空数据库，应用于IoT/城市大脑等。第三块：NoSQL——非结构化及专有领域。

还包括：GraphDB——高性能分布式内存系统及基于此的图数据库；Redis/Memcache——开源内存云服务；MongoDB——文档型数据库等。第四块：工具产品。还包括：DTS——数据传输服务，异构多活数据实时中心；DBS——数据库云备份服务等。

前面早已提及，发展成今天这样的数据库的生态，阿里经过了漫长的探寻。李飞飞实在，这和阿里与生俱来的一个优势凸密不可分——极大非常丰富的场景。传统数据库厂商的作法是，研发一款数据库产品，让客户用于之后展开对系统，可以缝缝补补；而阿里内部天然具备大量的业务场景，这就构成了一块极大的“试验田”，任何一项新技术都会意图在公有云上向客户输入，而是经过“内部练兵”的方式来检验和确保可靠性、安全性，这些工作做完之后才不会对公有云、私有云、混合云的客户展开公布和获取。这一点是阿里云、AWS这样的企业联合具备的优势，而传统的数据库厂商则并不具备。

全球数据库大战一触即发！今天的阿里数据库在国内早已归属于领先，但在国际市场怎么看自己的方位呢？李飞飞某种程度有自己的点子。他以原生分布式数据库技术为例讲了谈（录：原生分布式数据库是分布式数据库两大解决方案之一，另一种则是经常出现地更加早于的分布式数据库中间件）。在世界范围内，原生分布式数据库技术最领先的是Google，它最先明确提出Spanner，可以做横跨数据中心的数据一致性分布式技术（2009年10月25日，Google明确提出取名为Spanner的远景计划。该规划的原理是一旦流量剧增、硬件超负荷，数据就不会在百万级的数据中心中自动移往。

Spanner：“扳手”，又有“桥梁的交叉承托”。寓意为：“跨越数据中心，自动移动与拷贝数据。”）Google在Spanner数据中心里配有了自己的原子钟和GPS接收器，这些时间协商装置不会相连到特定数量的主服务器，然后再行由主服务器向整个谷歌网络中运营的其他电脑传输时间读数。李飞飞实在Google有一个取巧的过程，即利用了硬件（原子钟）。

他个人指出阿里巴巴在分布式数据库某些领域、某些维度上有可能多达像Google这样的一些公司在分布式领域的累积。为什么？“我实在任何技术都是业务推展来派生的，只要你有业务场景，我实在你的技术一定会逐步发展到领先。而阿里电商双十一的场景在世界上都是绝无仅有的，规模和所发量是多达Google和亚马逊的，此前亚马逊做到了一个类似于双十一的活动，结果数据库必要宕机。”（(公众号：)录：此次宕机事件有可能所指的是CNBC报导过的亚马逊因退出Oracle数据库，造成Prime Day宕机）有一点注目的是，李飞飞还透漏了两个最重要的信息：1、2019年下半年，他们团队有可能将发布云原生数据库POLARDB和分布式关系型数据库X-DB拆分的最新进展，也就是前文提及的POLARDB分布式版本。

2、他们团队将在2019年的ACM SIGMOD数据管理国际会议（全球数据库领域具备最低学术地位的国际性学术会议）上共享双十一场景下的分布式数据库架构。据理解，谷歌Spanner、AWS Aurora等都是首先在SIDMOD会议上公布的。这实质上意味著中国厂商从技术上与顶级数据库厂商车站在了同一个舞台上。

“从技术和商业角度往前看，我们期望总有一天以业务来驱动技术发展，而不是闭门造车，专而不放。我们不说道领先世界，但我们期望需要总有一天车站在世界的前茅，和AWS、甲骨文这些厂商车站在技术和商业数据库第一阵营的方位。”对于业界十分注目的有所不同厂商数据库之间的兼容问题，李飞飞悉数做到了答案。

他回应，阿里将尽量去相容现有生态而不是毁坏现在的生态。业务上，阿里不会希望反对更加多中小开发者以及合作伙伴、生态合作方需要环绕阿里现有的体系去研发上层的应用于，确保管控一系列的工具和人力投放。商业踢法上，阿里不会有专门的反对计划发售，面临金融行业、政府行业、新零售行业重点打造出典型案例。当双方数据库之间有一个良性循环，生态做到的充足大，就可以独立国家发展自己的生态。

“当我这个热带雨林也宽一起以后，就是一个独立国家的热带雨林，从你这末端过来，就是我的目标。不过我们现在还没到那一步，这是我们最后的目标。

”在阿里云北京峰会当天，阿里云公布了POLARDB v2.0，这是业界首款相容Oracle的云原生数据库。重新加入阿里：迎接挑战，率领团队南北很远李飞飞坦言，他也面对着一些挑战，但指出这也是行业的一些共性挑战。

第一个挑战是内外部的压力。假如把传统数据库厂商比喻成汽车制造厂商，专门造车就完事了。而阿里不仅要造车，还要同时反对集团的业务、服务云上的外部用户——既是制造商又是4S店，既有研发又有运维。

第二个是混合云的数据架构带给的业务上的挑战。虽然说道现在云计算市场蓬勃发展，无论是国内阿里、腾讯、华为还是海外的AWS、微软公司Azure，都面对一个问题——上云不是白和白、0和1的问题，而是有些业务可以上云，有些业务不上云（仍旧维持传统IT架构），如何确保安全性平稳高效的混合云部署是有挑战的。第三是数据的安全性隐私维护，无论是AWS还是阿里云，这是一个永恒的话题。

第四是智能化系统的大规模落地应用于。现在系统形态简单、数据量更加大，运维挑战更加低，依赖人力投放不是一个最佳选项，必需利用AI和机器学习的技术尽量解决问题，提升运维效能。但这些挑战是李飞飞重新加入阿里之前就能想起的。

作为跨越了学术界、科研界、工业界的“全能型”技术人，他深刻印象看穿了他在企业和学术圈的有所不同：“企业界更好从应用于市场需求抵达，再行解决问题再行看怎么之后跑完，类似于5+5不告诉怎么计算出来的时候就全部分开1，用工程化的思维去解决问题；而学术界和科研界会注目一些单点核心技术的突破和优化，甚至展开前沿布局，但离构建到商业系统有一段路程。”在专访最后阶段，谈到重新加入阿里的原因，李飞飞十分直爽地回应，阿里的业务场景非常丰富，是一个天然的数据库的圣地，能反对各种业务练兵，做到最牛的技术，同时又能商业化产业化。

另外，他坦言，阿里互联网化程度低，开放式、有合力，他在美国待那么多年，较为适应环境这种文化。自由选择重新加入阿里是个很大自然的过程。现在，全球数据库市场竞争白热化，传统厂商实力强劲，李飞飞还将率领阿里云数据库和达摩院数据库与存储实验室，之后南北加深更加远处。原创文章，予以许可禁令刊登。

下文闻刊登须知。

本文关键词：酷游ku官网

本文来源：酷游ku官网-www.grupo-chasis.com