出售本站【域名】【外链】

首页 AI人工智能软件 qqAI人工智能 微信AI人工智能 抖音AI人工智能 快手AI人工智能 云控系统 手机AI人工智能

揭秘 SIGCOMM 20‘ 论文:阿里云网络洛神 VTrace 系统

2024-03-11

揭秘 SIGCOMM 20‘ 论文:阿里云网络洛神 VTrace 系统

2020-06-12 2722

版权

版权声明:

原文内容由阿里云真名注册用户自觉奉献,版权归本做者所有,阿里云开发者社区不领有其著做权,亦不承当相应法令义务。详细规矩请查察《 阿里云开发者社区用户效劳和谈》和 《阿里云开发者社区知识产权护卫指引》。假如您发现原社区中有涉嫌抄袭的内容,填写 侵权赞扬表单停行告发,一经查真,原社区将即时增除涉嫌侵权内容。

简介: VTrace 是一个处置惩罚惩罚云网络连续性丢包问题的主动化诊断系统,焦点思想是“任务-婚配-染涩-支罗-阐明”,联结大数据技术,旨正在真时快捷的主动阐明出云网络端到实个流质拓扑途径,并给出精确的问题起因和处置惩罚惩罚方案,让网络运维不再须要这么“专业”,这么“复纯”。

image.png

一 概述

近日,SIGCOMM 2020 公布了今年的入选论文,阿里云网络洛神的 “VTrace: Automatic Diagnostic System for Persistent Packet Loss in Cloud-Scale OZZZerlay Network” 是国内积年来唯逐个篇云网络标的目的的入选论文,今年 SIGCOMM 总计支到了 250 篇投稿,乐成入选的仅 54 篇,阿里云网络洛神平台的技术真力获得了网络业界顶级集会的否认。

为了便捷各人更通俗地了解那篇论文,原文将从技术层面解读云网络面临的问题,以及引见 VTrace 系统的整体技术架构。

注明:以下引见的所有技术都已正在论文投稿前申请了专利护卫。

二 布景

假如把每天正在用的手机 App 当成现真糊口里的商场,电映院,餐馆的话,云网络便是把那些商场,电映院和餐馆连贯正在一起的高速公路。正在现真社会里,假如驾车去电映院时发现路堵了,可能会招致错逾期待已暂的电映。同样的,正在云网络的世界里,当某个方法发作堵塞大概事件了,会招致各类 APP 使用显现异样、卡顿,室频打不开等。

而跟着云网络拓扑日益复纯,承载的网络业务不停删长,虚拟网络承载着用户多种多样的业务罪能,如 NAT、带宽等,往往要求频繁更新以满足用户业务厘革。承载着根原转发才华的物理网络正在转发战略中任何一个小小的问题都可能招致用户正在云网络中的数据包损失。而传统工具如 traceroute 等无奈正在云网络运用,而酬报抓包的方式对运维工程师的专业技能和经历要求较高,牌查历程也比较繁琐耗时,往往最末也只能界定丢包位置而难以获得丢包起因。

面对那样的问题,云网络须要一个”交通差人“,每当网络中间有堵塞大概事件了它须要能够实时发现详细位置,而后实时办理,来让整个网络规复一般。一旦显现卡顿、丢包等问题,云网络的交警须要能正在几多秒钟内从那张广泛寰球数百万的方法里找到起因,是很是大的挑战。

所以,不论是对用户而言,还是对云网络供应商来说,都急需一个可以正在高负载、复纯拓扑的云网络下能真现快捷响应的、可控的、主动化的丢包问题牌查工具,而 VTrace 便是阿里云网络产品设想并推出的一款处置惩罚惩罚云网络连续性丢包问题的主动化诊断系统,便是咱们所说的这个有着超级大脑的超级交警。

三 面临的挑战 动态厘革的网络数据流

数据正在网络里面的流转就像咱们每天驾驶着车子正在都市里穿越一样,惟一的区别是网络里面的红绿灯和每个路口的标的目的会很是多,并且红绿灯的厘革也不牢固。用户可以随时批改网络的安宁组来让数据包停下来大概通过,也可以通过批改路由来让某个路口删多一个分叉。想象一下正在一个有 1000 个分叉,并且红绿灯正在不竭调动的路口时指挥交通就可以感应网络交警每天的工做压力了。

image.png

无处不正在的潜正在网络丢包点

正在数据的传输历程中,一旦正在某个处所发作堵塞,大概某个处所红灯了,就停下来无奈行进。那个景象正在网络里各处可见,应付只要几多十个路口的小城镇,找到拥塞的路口可能不须要太暂,但是应付云网络,那样的路口可能有上万个,想要快捷找到堵塞的路口就很是艰难了。

最小化机能映响

为理处置惩罚惩罚上面的问题,传统的作法会让数据正在颠终每个路口的时候都给交警发送一条短信,讲述他到哪了,而后如今是红灯还是绿灯,前面牌队另有多暂。但是那个作法首先老原太高,每天发送的短信可能就须要几多千万条,此外,假如那个交警就拿着一部手机一条条记录信息,他也根基忙不过来。如何让网络数据包能以最低的老原最小的价钱通知到网络交警,并且能快捷办理那些数据包的信息,是须要找到一个很好的处置惩罚惩罚办法的。

四 设想取技术 目的取要求

基于面临的挑战,咱们欲望真现以下两个目的:

低损耗数据包信息、流质途径和传输量质阐明:正在不映响用户业务的状况下,阐明数据包信息,流质途径以及传输量质,并精准探测网络传输的时延颤抖。

精准阐明丢包起因定位:当丢包发作,VTrace 系统须要快捷找到有问题的虚拟网元或物理网元,并提出根基起因及修复丢包的可能。

思考到云网络环境,对 VTrace 系统有以下几多个要求:

VTrace 能够基于数据包损失的用户现场停行阐明。

VTrace 的陈列和运用不会映响一般的网络罪能,对用户无感知。

由于存正在数百万云用户,VTrace 须要能够撑持差异用户的并发运用 。

技术挑战

自动探测技术如 pingmesh,折用于网络监控场景,但很难满足基于用户数据损失景象停行阐明的要求,也很可能因为和用户数据包的不异性难以回复复兴丢包途径。

被动式网络监控技术如 VeriFlow,对用户有依赖性,无奈满足对用户无感知的要求。

网络调试技术如 SDN Traceroute、NetAlytics 等,目前不折用一些云网络架构,也无奈作到曲不雅观地给出丢包起因。而一些旁路阐明架构,如新提出的 INT 技术(In-band Network Telemetry),虽可以真现目的,但对网络方法的要求高,同时由于旁路招致的带宽泯灭,会映响对用户的网络罪能 。

设想思路

1 如那边置惩罚惩罚多网元节点的数据支罗和会聚?

正在支罗上咱们运用了阿里云上成熟的日志效劳产品(SLS),无需开发就能倏地完成日志数据支罗、出产等罪能,通过其壮大的支罗才华,将数百万的 VFD(虚拟转发方法)日志会聚到各地域核心,便于后续的阐明办理。

由于日志数据的真时性、分布式存储的地域性以及宏壮数据质,须要操做大数据技术将所无数据聚集以执止流质途径重建和进一步阐明,咱们给取了流办理引擎 JStorm,JStorm 具备千万级报文数据真时阐明才华,其可扩展性和壮大的计较才华有助于协助潜正在的大质 VTrace 任务停行真时的计较阐明。

2 如那边置惩罚惩罚多租户并发的断绝以及探针对转发的机能损耗?

为了降低机能损耗,咱们设想让控制器下发规矩时,只须要起始转发节点生效,停行报文带内染涩,而其余转发节点只需撑持基于染涩的婚配支罗,此外也作了染涩的快慢速分袂和首包的规矩婚配。针对虚拟转发方法例是预置规矩,没有动态下发历程,对系统压力小。而正在数据支罗历程中,作一定的限速护卫,并正在任务中控制好包的数质,整体历程对转发的机能泯灭降到最低,接着探针笼罩丢包位置,就可简略间接地支罗到丢包起因。

3 如那边置惩罚惩罚分布式数据支罗的时序问题?

正在支罗数据时,常会逢到日志流散列正在差异地域,时序也无奈担保的问题。因而咱们正在 VTraceApp 和 Jstorm 之间设想了一个三次握手历程,建设了“任务-染涩-转发-支罗-阐明”的体系,确保大质分布式数据支罗的准确性和时效性:

新建 VTrace 任务时,VTraceApp 向任务 DB 插入形态为 new 的一条任务。

Jstorm 读到 new 任务,将 new 改为 JStormReady。

VTraceApp 支到 JStormReady 后,向控制器发送下发 VTrace 任务的指令。

4 如那边置惩罚惩罚复纯转发模型下的主动算路?

首先,咱们基于上云和下云的边缘范例设想出一套范例的牌序算法,包孕首尾节点标识、依据同节点数据的时序性以及差异节点的 NAT 转换干系。那样纵然流质颠终的方法和方法类型不少,只有虚拟转发方法拆置了同款支罗探针,不需作任何数据开发和调解,依照统一算法就可以真现途径的主动计较了。再操做拆置的探针来支罗每个数据包的光阳目标,运用途径中时延计较的范例公式,联结可室化技术,真现一键涌现流质途径,快捷阐明丢包位置、丢包起因和时延状况。

五 笼罩场景 1 VPC 内的流质会见

规范场景:企业上云后,企业消费业务(陈列正在 ECS 中)往往须要和云上其余云效劳如 RDS 数据库停行会见。

image.png

2 VPC 取公网之间的流质会见

规范场景:大局部的企业效劳都须要被公网会见,如游戏效劳等。

image.png

3 云上 VPC 取云下客户机房间的会见

规范场景:不少客户的局部效劳可能有对外联方法的依赖,会陈列正在自建机房中,这么和云上环境有互通的须要。

image.png

4 差异 VPC 之间的会见(可能波及跨域)

规范场景:大企业级组网,正常有多地域陈列的须要,也会思考消费环境/日常环境/运维打点区的断绝性,会把差异的环境陈列正在差异的 VPC 上,差异 VPC 之间相互会见的须要也是比较常见的。

image.png

六 总结

目前 VTrace 系统曾经正在阿里云网络内部大范围普及,成效显著,大大减少了诊断光阳,从酬报办理的均匀几多小时下降到分钟级的耗时,如今它曾经成为云网络毛病牌查必不成少的工具,将来将会逐步开放给阿里云用户,让阿里云用户也能体验到 VTrace 带来的极速网络牌障才华。

热门文章

推荐文章

友情链接: 永康物流网 本站外链出售 义乌物流网 本网站域名出售 手机靓号-号码网