本篇文章6261字,读完约16分钟
新科技信 2019双11,是支付宝参战的第11年。
与11年前相比,双11的多个事物发生了变化。 例如——2684亿美元是11年前的5000倍左右。例如,流量-订单的峰值为54.4万件/秒,是曾经无法想象的数字。 比如层出不穷的新技术,就是这些惊人数字背后的“秘密武器”,为抗击双11的士兵们配备了最完善的武装。
也有始终不变的东西。 仿佛踏上了战前的紧张、不安、薄冰一样,对细节反复检查的“强迫症”,胜利后的喜悦、释然、充实,然后进入下一步。
支付宝( Alipay )的技术事业是“半年进行建设,半年进行巨大的促进”。 虽然是戏言,但足以从侧面说明实践战场的重要性。 每当双11圆满落幕,技术人员也到了收获的季节。 经历了哪些双11大考试的新技术,就像经历了“成人式”一样,开始一个接一个地走上舞台,独自一人。
sofamesh :金融类云的第一步
我们知道,金融机构责任重大,所以在面对新技术时,一般都很保守。 支付宝( Alipay )也不例外。 特别是在双11这样的场景中,流量大、峰值高,平时再小的问题,在这个时候也有可能被放大为大问题。
于是,在今年的大促迫在眉睫之际,sofamesh团队还在烦恼中。 面对周围各种各样的声音,他们感到了很大的压力。 被问到最多的问题是“这个不可靠吗? ”。
“行”字在双11面前,可能有千钧之重。 能承担超过零点的流量峰值吗? 能保障稳定吗? 你能保证错误吗?
mesh是一项新技术,社区开源项目不太成熟。 sofamesh就这样走上了开源的自我学习之路。 在金融水平的苛刻要求面前,在双11的极端场景下,到底怎么样? 谁的心都没有底。
但是,此时,两年的心血将被浪费。 反过来说,如果能打赢这场战斗,云之原生之路在双11这个体积的考验下是可能的,这对整个领域来说将是一个很好的标杆。
资深技术人员杨海悌说:“蚂蚁金服将成为金融领域技术的开拓者和实践者。”
这不是蚂蚁金服第一次成为“吃螃蟹的人”,但当金融机构依靠ioe的时候,他们率先开始探索分散,现在分散成为主流,他们又率先开始思考云的原生。
看到“以前是业务推进技术,现在到了技术为业务提供红利的时候了”自己成长的sofamesh,杨海悌很自信,另一方面非常动摇。
sofamesh是支付宝( Alipay )比较金融领域特殊诉求开发的金融级中间件,是金融级云原生分布式框架sofastack的一部分,始于2009年,大致与双11同龄。
骡子是马,不散步不知道。 sofamesh的最初答复很快就提交了。 传统的时分复用资源切换需要4个小时,使用sofamesh还不到4分钟。 性能提高近100倍。
时分复用是指,如名称所示,允许在不同的时间段将相同的资源“复用”到多个应用程序。 这项技术可以减少资源闲置,提高资源利用效率。 这项技术在年双11上立过功——当时,支付宝( Alipay )面对这一天猫双11和自己会员急需的“双着急”挑战,为了节约价格购买了一些资源,分时安排了1.0,采用了同样的资源,两大
但是,去年,以灵活的体系结构模式进行分时调度,切换资源需要重新配置和部署相关系统,4小时的切换时间支持“两大促进”,但要求在短时间内迅速调用资源的业务
今年以来,通过sofamesh的在线,无需重新配置交换机资源,切换时间缩短到了3分40秒。 这意味着,像蚂蚁森林一样,每天都要面临流量少的高峰业务,不需要事先留出资源余量,提前10分钟开始资源切换,是绰绰有余的。
“预计将来切换时间将缩短到秒级。 ”杨海悌说。
2019年的双11,sofamesh扮演了非常重要的角色。 ——100%覆盖蚂蚁金服核心支付链接、数十万容器、峰值数千万qps、平均rt (响应时间) 0.2ms,是业界最大的服务mesh集群。 在其洪峰面前的稳定性和平滑性,以及效率的显着提高,是有目共睹的。
在这张漂亮的成绩单后面,其实是一个字——行。
“云原生”已经成为业界公认的技术趋势,以提高运维效率、降低资源采用价格、提高服务安全可靠性等为目标。 云本机基础架构升级为技术发展提供了基础架构支持,提高了未来体系结构空之间的想象力。 2019年也是支付宝( Alipay )金融级云原落地元年,包括sofamesh在内的一系列云原生技术经过了双11的考验,向整个行业说明——我们可以走云原生这条路。
双11之后,在蚂蚁金服举办的发布会上,副cto胡喜宣布将打磨后的sofamesh嵌入sofastack系统进行公开。
正如“元年”一词所说,这只是蚂蚁金服迈出新开拓道路的第一步。
oceanbase 2.2 :世界记录是为了被打破
oceanbase被质疑“是否合适”的次数更是多得数不胜数。
数据库是命脉,特别是金融机构的数据库,有些问题都是真金白银的问题,任何业务都不用冒风险,老老实实抱着老牌进口商品oracle,谋求太平。
但是甲骨文也没见过双11这场战斗。 随着双11的流量每年翻番,我看到它的性能撞到了天花板上。 在年双11前的压力测量中,oracle出现了10%的流量缺口。
oceanbase感受到了机会。 在此之前,他们已经“蛰居”了四五年,没有固定的业务,在最落魄的时候,面临着团队解散和项目取消的局面。
当时的oceanbase将满5岁,但版本号仍为0.x,看起来还是个demo,从一开始就要承受双11 10 %的流量,相当于支付宝( Alipay )平日流量的最高峰,而且是最核心的交易西
有一段时间,不断出现“你们行不行”的质疑声。
“当人们说我们不行的时候,我们想得非常坚定。 ”。 蚂蚁金服研究员杨传辉说。 他是oceanbase开发团队的早期成员之一,他目睹了oceanbase写下了第一段代码。
从完成10%的任务,到双11正式高考,时间不到两周。 最后10天,资深运维专家文汇带着全队几乎不眠不休地进行了优化,将长达10毫秒的响应时间降至1毫秒以下。
那年的双11,oceanbase毫无疑问,一战成名。
今年的双11,oceanbase的版本号是2.2。 在命名版本方面,他们的谨慎做法一如既往。
但是每个oceanbase版本发生的都是“重生”的变化,自己创造的记录也在自己持续更新——
年双11,基于oceanbase 2.0分区方案的体系结构正式上线。 该体系结构处理了数据库的可扩展瓶颈,将事务的每秒承载能力提高到100万级,性能提高了50%。
50%的涨幅不在少数,但更令人惊讶的是,时隔仅一年,2019年的双十一中,新的在线oceanbase 2.2版本在2.0的基础上提高了50%的性能。
今年10月3日,权威机构国际事务解决效能委员会tpc援引蚂蚁金服分布式关系数据库oceanbase的消息称,美国甲骨文企业保持了9年的世界纪录,以tpc-c排名第一,成为首次出现在该排行榜上的中国数据库系统。
仅仅一个月后,在2019年双11考场上,oceanbase2.2再次刷新数据库解决高峰,达到6100万次/秒,创下新的世界纪录。
在金融级核心数据库的严格要求下,oceanbase为什么能够实现这样的跨越式性能升级?
重要的秘密是,oceanbase的背后是原生的分布式数据库设计和paxos协议,通过水平扩展x86服务器可以无限伸缩,支持大规模并发的效果。
另一方面,今年为了进一步提高性能和降低延迟,oceanbase通过中间件优化自动将多个sql聚合到轻量级存储过程中。 这个过程将原本需要几十次sql互联网交互的任务减少到了一次互联网交互,从而将总体rt减少了20%。
目前,支付宝( Alipay )的业务已经跑了100%oceanbase,作为我国首个自研的金融级分布式数据库,经过6年的双11锤子精炼,走出了蚂蚁金服,具备了走向更广阔天地的潜力。
在今年的双11中,100%的支付宝( Alipay )支付业务切换到oceanbase嵌入式oracle兼容模式,支持oracle语法和存储过程的优化,还支持分布式分区表、全局 双11之后,oceanbase2.2也将正式上映。
“但是,当别人觉得我们什么都好的时候,我们反而会冷静下来,认为自己还有不行的地方。 ”。 杨传辉说,技术上未知的恐惧,可以让大家走得更远。
图智能:多而复杂的金融关系的最优解
蚂蚁金服计算存储首席设计师何昌华指出:“过去很长一段时间里,图数据库和图计算都停留在学术研究阶段,领域应用场景较少,是因为没有强场景驱动,市场发展不太迅速。” 但是,反过来看,与图相关的产品近年来热度有所上升。 其核心原因是强场景的驱动,特别是金融场景,解决了大量、多、复杂、相关、多样化的网格数据,通过节点和相关的数据模型,有效地解决了许多复杂的关系问题。
阿里一站式图平台的诞生,也具有鲜明的蚂蚁金服特色,同样“忙于业务”。
蚂蚁金服大约从2005年开始研究社区的图计算,当时的团队在一点开源产品的基础上进行了小规模的尝试,结果发现效果很好,图数据库可以很好地与金融、社会交流业务相结合。 但是,吖啶服具有庞大的数据量,需要分布式架构支持高并发大数据量和大吞吐量,但当时无论是开源还是商业数据库产品还是独立版,都需要阿里服那样的数据量和众多复杂的环境 然后,艰难而扎实的自研之路开始了。
首先,处理图数据的存储和在线查询问题。
从数据量来看,分布式体系结构是唯一的选择。 出于满足金融场景高并发低延迟的诉求,选择原生图结构而不是基于关系数据库封装图数据是必然的。 但是,由于以上两点,整个开发的难度大大增加。
年初组队,经过“冬练三九、夏练三伏”的苦修,以及在代码、运维、稳定性等各个环节的终极追求,首张图数据库版本geabase于年初发布。
那时,恰逢支付宝( Alipay )史上最大的改版,模块化功能被新闻流取代,大大加强了社会交流关系的属性,geabase开始访问支付宝( Alipay )链接。
百炼成钢经过几个月的压力测试,去年6月,新版支付宝( Alipay )上线,geabase迎来了最初的流量。 其次,从支付宝( Alipay )大改版开始,新春红包、双11、geabase迎来了业务开花期,到2019年双11、geabase双11主链路上单集群规模突破万亿边,边找点边突破800万qps,平均延迟为10ms。 成为支付宝( Alipay )中心链接的重要一环
数据存储和查询问题得到处理,接下来处理的是分析计算问题。
首先,考虑了在庞大的图数据中如何进行数据挖掘。 从千亿到万亿级规模,对于几tb到几百tb的数据,使用巨大的内存物理机和高速互联网实现离线全图计算,对公司来说不太现实,资源也有巨大的浪费。 因此,重点在于如何满足业务功能/性能诉求,利用碎片化的现有资源实现“按需计算”。
因此,年,我们根据大量的数据,设计了离线计算框架,提供了自适应的分区策略,资源消耗量可以比同类产品减少一个数量级,远远优于graphx等开源产品。
另外,为了方便业务算法者配合其业务进行二次开发,还开放了c++和java的接口,除了行业常见的图形编程框架的pregel、gas之外,还实现了一定的“微创新”
对计算的事件进行了全量分解处理,但随着“310”战略的推进,风控工作的快速发展,对分解时间长度的要求越来越高,分解更快、更实时,年开始考虑在线地图的计算能力。
有时,并不是所有业务都需要进行多复杂图的分解,而是在满足一定条件后才开始子图的迭代计算。 最后,基于图的迭代计算结果在解决了数据链路之后被提供给在线采用。
因此,一个场景在完整的计算链接中,需要流计算和图计算两种模态的融合计算。 我们打破了以前流传下来的计算模式边界,提供了流程图融合的计算系统。 结合数据流和控制流,提供动态dag功能,实现按需计算,实现灵活的可扩展性。
客户通过统一的dsl(sql+gremlin/gql )、一系列计算系统,实现流程图融合的链接,实现数据驱动的在线地图计算能力,降低客户的学习、运输价格
2019年双11中,在线地图计算技术大放异彩,通过秒级的决定,在花呗等场景中业务效果提高了1.2倍。
从“大”图的存储,到离线全图“按需计算”、“实时”在线图的计算,阿里的图智能技术沿着业务迅速发展和成长。
融合引擎:新计算威力初探
今年的双11落地应用新的“神器”,融合了计算引擎,花费了近100名工程师一年的心血。
融合计算引擎的基础是蚂蚁金服联合uc berkeley大学推进的新一代计算引擎ray,很年轻。 年融合计算引擎项目启动时,它只有数万行代码,距离金融级在线环境的应用还很远。
“我们花了一年的时间增加到几十万行代码,涵盖了c++、java、python等所有语言。 ”。 蚂蚁金服的资深工程师周家英说。
至少有四个团队共同“抚养”这台发动机,四个保姆带着孩子,绊倒了,不可避免。 难度远远大于一个队负责一个引擎。
但是,开发时的“难”是为了应用时的“简”。
在计算引擎的运行级别上,很少使用第三方存储,因为不同计算模式的数据可以在引擎中共享,同时还节省了外部存储和互联网传输的开销。
在应用方面,融合计算引擎不仅处理了金融场景中需要连接多个不同计算模型的难题,还支持各种低效业务,在支付过程中提供秒级智能决策能力。
同时随着融合引擎的落地,技术同学的研发习性也发生了改变。 我们希望通过融合计算引擎,达到研发状态、运行状态、运维状态三位一体的统一:比如动态图计算场景中,计算开发同学只需要做一个流程+图的计算工作,就可以实现秒级6度邻图的迭代计算。 同样,在机器学习行业,通过编制包括流程+模型训练+服务在内的计算工作,可以实现端到端秒级模型导出的在线学习能力。 这样,从开发到运行状态,计算整体的效率得到了大幅提高。
年,融合计算在花呗逆套现的智能识别中表现出色。 2019年,融合计算引擎落地于支付宝( Alipay )的各个场景。 图在花呗、蚂蚁森林等场景大规模上线,图数据库geabase突破万亿边。
在2019年的支付宝( Alipay )新春红包活动中,融合了计算引擎,以在线学习能力支持新春红包的智能文字,并将其算法推向了新的在线学习的系统。 该人系融合了流计算和机器学习,使机器学习的模型迭代速度从以往的时间水平提高到了现在的秒水平。 此次的双11点,在“树枝日历”的推荐算法中发挥了重要的意义。
通过整合流媒体计算、服务和并发查询,统一计算引擎将机器资源利用率降低60%,将端到端延迟降低到毫秒级别,支持金融互联网业务查询和监控,
今年的双11中,融合计算引擎至少在三个场景落地成功,被验证为可行,“跑了阿里金融级的重要决策链接”。 周家英不兴奋。 “这表明我们的计算引擎具有金融水平的能力。 ”。
事实上,无论是双11这样极端的考试场景,还是支付宝( Alipay )、阿里巴巴以及各网络科技企业的日常应用场景,数据驱动业务都更多。 因此,大量数据的实时解决、分析和应用、人工智能、深度学习等新技术的开发,要求具有更强的计算能力,以及能够应对许多复杂场景的多种计算模型。
面向未来,越来越多的东西是未知的——我们不知道未来会出现什么样的场景,这些场景要求什么样的计算模型和计算能力。 “融合计算是真正意义上的新计算的第一步”蚂蚁金服计算存储首席设计师何昌华说。
标题:“2019双11,支付宝有那些“秘密武器”?”
地址:http://www.theproblemwithdata.com/twxw/21742.html