专访丨为万物互联时代布局,阿里云飞天2.0做了哪些升级?

发表于 讨论求助 2020-12-07 22:39:45

主题分发在9月19日举行的云栖大会开幕会上,身穿飞天第一行代码文化衫的阿里云产品总监何云飞信步上台,向外界宣布阿里云有史以来最大规模的技术升级——飞天系统2.0上线。

从2009年2月飞天写下第一行代码,如今这套阿里云的核心操作系统已经走过9年的发展历程。在9月19日举行的云栖大会开幕会上,身穿飞天第一行代码文化衫的阿里云产品总监何云飞信步上台,向外界宣布阿里云有史以来最大规模的技术升级——飞天系统2.0上线。

飞天2.0是一套面向未来万物智能时代的云操作系统,不仅可满足百亿级设备的计算需求,而且可实现1EB数据存储以及支持IPv6等重大更新,更大的变革来源于飞天2.0是对未来物理世界与数字世界必将融合的判断,从而推出的分布式云管端融合的解决方案。

何云飞提到“飞天1.0”和“2.0版本”最大的区别,是飞天1.0拥有大规模数据中心调度能力,但是今天2.0的发展来自于业务更多的需求,更强调面向物联网时代的分布式计算。“飞天2.0支撑了阿里云遍布全球的基础设施,针对亿万个端进行广泛适配,可覆盖最后一公里的计算。计算是心脏,AI是大脑,IoT是神经网络,这是我们对万物智能时代的构想,也是飞天2.0的设计理念。”

在发布会上,阿里巴巴集团副总裁周明提到今天的阿里云已经能够提供18个区域、49个可用区、200个以上的数据中心服务客户。并建设了全球骨干网连接全球的数据中心,它还接入了上百个海外的POP以及1500多家运营商。庞大的规模也在督促阿里云保持创新进步,以更好得满足客户需求。

这次飞天2.0系统就是阿里云多年创新的一次集中亮相,阿里云创始员工、阿里云技术研发总经理蒋江伟向大家介绍了阿里云新版本在计算、存储、网络、安全四大方面的进步,并介绍了阿里云在物联网、AI、专有云等层面的发展:

百亿级计算解决方案:

在计算层面已经实现秒级启动ECI、弹性计算(ESC)、异构计算(FPGA )、高性能计算(E-HPC)等多种计算方式,同时实现了更弹性的部署方案,能够在10分钟内启动10000台服务器。神龙云服务器架构实现了虚拟机和物理机的融合。“计算进入可随意配置的时代,一行代码即可启动。”

10倍性能存储产品:

存储方面阿里巴巴自研了SSD——AliFlash,目前AliFlash已经发布三个版本。阿里云为此定制了一款SSD控制芯片,这个芯片支持了阿里巴巴Open Channel协议,这个协议可以让本地软件存储引擎对SSD直接进行读写等操作,可将整个传输延迟降低10倍,并且读写速度放大5倍。

加上阿里云另一款本地的存储引擎——Fusionengie引擎,再配上低延时的RDMA网络,阿里云形成了从底层芯片到部件、到本地的规模分布式传输的低延时能力,促进上层整个性能放大。比如说本地盘通过这样的结合,能力提高了50%;对于上层的云产品比如ESSD,可以放大到5倍的性能提升。

规模化低延时网络:

目前已经在阿里巴巴规模部署了双25G、双100G到服务器的网络,同时也在研发400G的网络。在低延时方面,阿里通过对RDMA协议的支持,通过对运维管理的研发、流量控制、运算算法的研发,成功部署了规模化的低延时网络。

另外发布新一代的vswitch虚拟网络,性能提升58倍。同时飞天2.0支持IPv6,海量地址帮助企业解决边缘设备接入难题。

AI推动阿里云智能化

阿里云正在推动AI芯片AliNPU的研发。除此以外,阿里云还根据FPGA非常灵活的特点进行了研发。阿里云通过软硬件结合,设计了全栈的系统;针对神经网络CNN inference吞吐能力与GPU相比不足,阿里云的硬件架构师和算法工程师进行了一体化设计,尤其是针对具体的架构进行了针对性的算法设计,然后再加上低精度、稀疏化,让整个性能得到显著提升。

DC大脑的智能运营化系统也在云栖大会亮相。这套系统通过阿里云的数据、算法、模型,可以在供应链领域、服务器、网络、数据中心及应用运维领域、故障排查领域应用,不断地进行优化提升运营水平。

全面布局边缘计算和物联网:

为布局物联网时代,阿里云在芯片、联网、管理平台三个层面进行了布局。发布的低功耗LoRa芯片,具有小尺寸、低功耗、超低启动电流的特点。阿里云对发布的另一款联网产品——天空物联网寄予厚望,“现在每个人都通过WiFi上网,未来每个企业都通过天空物联网联网”。LoRa与飞艇和无人机结合可布设高机动性大网,物联网络管理平台管理百万台以上的网关、亿级以上的终端。阿里云希望推动物联网时代尽快来临。

边缘计算也是促进物联网时代来临的重要推动力,这方面阿里云发布了边缘节点服务ENS,可实现分钟级创建,节省30%带宽。Link IoT Edge在智能设备上部署边缘计算,使得万物智联。

把公有云“抱回家”的阿里专有云:

阿里云专有云是阿里云一种部署模式,它和阿里云公有云是一样的架构。很多大企业希望把公有云的能力完整部署在自己的数据中心,这便是阿里专有云的模式。

这次云栖大会上,阿里专有云带来一种新的收费模式。过去阿里专有云是购买服务模式,现在可以通过License模式使用阿里专有云,新的模式可以通过订阅使用,这样做可以更加灵活,初期的投资更低,整体拥有成本也会降低。

会后阿里云技术研发总经理蒋江伟、阿里云产品总监何云飞、阿里云专有云事业部总经理三位接受了包括在内的多家媒体专访:

Q:飞天2.0相比飞天1.0有哪些跨越,飞天2.0赋予阿里云过去没有的哪些能力?

何云飞:飞天1.0和2.0最大的区别,是飞天1.0拥有面向全球的大规模调度能力,能够将全球数据中心都调动起来。但是飞天2.0更多需求发展来自于业务。我们看到原来的计算都要集中计算,未来的计算是分布式计算,我们不希望把数据拖来拖去计算,我们希望计算就直接发生在更靠近数据产生的地方,这样数据计算效率更高,实施性更高,体验更好。所以飞天系统在往客户端推进,面向未来海量的互联网设备,飞天可以延伸到每一个计算的地方,这是飞天2.0最本质的区别。

我举一个例子,比如说现在视频数据计算要传到云端计算完,然后再回到客户那边观看,造成延时非常大的。那我能不能在靠近数据视频产生那一端,直接把这个数据计算上传。未来广电行业的视频数据处理量非常大,利用分布式的云端处理成本将更低,这是一个非常好的可能。

蒋江伟:我从产品层面介绍下,飞天是一个持续迭代的产品,就像安卓迭代产品一样。包括神龙处理器马上推出1.5版本,神龙是一个底层架构,会外化出来很多产品,比如说发布会上提到的超算。其他的储如洛神2.0版本、盘古2.0版本等产品的各方面指标都会更好,性价比更高。所以这里面需要我们工程师越来越多去掌控整个软硬件。飞天1.0时代基本上以软件为主,到2.0软硬件都要结合起来深度定制,这也是飞天2.0版本的重要变化。

Q:飞天从9年前发展到现在的规模,什么原因促成阿里云的成功?

蒋江伟:第一个关键点,还是马云、王坚博士这样有理想、有坚持的人,他们始终认为这个方向是正确的。像我是因为看见了就相信了,刚开始我也不相信的。包括阿里巴巴众多技术、产品人才,也跟阿里云原来那批一起“看见的人”,一起沉淀出了飞天的整个技术。

第二个是由于阿里巴巴集团本身的业务非常广,很多业务线都能够帮助试错。阿里云现在的总裁胡晓明就是阿里云第一个客户,胡总当时是阿里金融CEO,经常把我们飞天工程师抓到他们的办公室,给他们修bug,改不好就别想回去,飞天就是这么一个过程走过来的。

另外规模效应也造就了阿里云产品的技术红利。因为阿里云的每一行代码都是细细推敲的,它的代码都是金子、都是钻石。我们用最好的工程师去抠每一行代码,由于阿里云平台的放大器作用,使得写的每一行代码被放大到几百万客户的使用,这就是价值。

Q:今天看到阿里云公布了很多前沿布局产品,比如超算、深度学习平台、物联网等,另一方面也看到阿里云正在深入工业、农业等传统产业。阿里云如何获得市场需求?以及如何平衡技术与市场驱动产品发展?

何云飞:做云计算平台是一个技术活,但是你会发现,我们写算法的工程师,高级科学家,工作在客户的厂房里,需求就是在那里产生,需求是同时被挖掘出来的。今天阿里发布了很多智能时代产品,但正如AI产品负责人在台上提到,我们的AI不一样的地方在于比较“冷”,阿里云将AI通用的能力,通过API低成本、低门槛的分享

发表
26906人 签到看排名