车网世界现场报道:
由中国汽车技术研究中心有限公司、中国汽车工程学会、中国汽车工业协会、中国汽车报社共同主办,天津经济技术开发区管理委员会特别支持,日本汽车工业协会、德国汽车工业协会、中国汽车动力电池产业创新联盟、新能源汽车国家大数据联盟联合协办的第二十届中国汽车产业发展(泰达)国际论坛(以下简称“泰达汽车论坛”)于2024年8月29日至9月1日在天津滨海新区举办。本届论坛以“风雨同舟二十载 携手并肩向未来”为年度主题,邀请重磅嘉宾展开深入研讨。
在8月30日“生态专场二:加速云计算与数字技术应用,推动新质型产业发展”中,天翼云科技有限公司行业中心总经理张星发表了题为“构筑数字化底座,天翼云助力汽车行业数字化转型”的演讲。
天翼云科技有限公司行业中心总经理 张星
以下为演讲实录:
各位嘉宾、各位朋友,大家上午好。
当前通用计算、智算以及超算一体化发展,中国电信在业内做云计算是比较早的,在运营商里面应该是最早介入的。下面我简单汇报一下天翼云从成立之初到今天的重要节点和历程。
中国电信最早在2009年就提出了布局云计算的战略,2012年成立天翼云公司,开始正式的商业化运作云计算。2015年,习总书记莅临中国电信贵州园区,寄语中国电信志存高远,也鼓励中国电信在国家的信息安全底座方面发挥央企责任担当。
天翼云在成立之初是以分公司运作的,2018年承接了到目前为止仍是业界最大的iCloud云存储。2021年,中国电信推进国企深化改革,在国家相关部委政府的主导下,我们联合几家央企共同创建国家云。于是在2021年天翼云由分公司改为子公司,时任国务委员王勇给公司揭牌,体现了国家对于天翼云底座承接国家信息安全底座的期许。
2022年的福州数字峰会上,国资监管平台正式上线天翼云。2023年的第六届数字峰会上,正式对外宣布天翼云作为国家云计算底座已经成型。2024年人工智能风生水起,天翼云把云计算底座进行了升级和扩展后,打造了集算力、平台、数据、模型和应用五位一体的智能云算力体系。
中国电信作为国家云,已经进入迈向智能云的拐点。在智能云的核心平台里面,我们构建了“息壤”一体化智算服务体系和能力,具备强大的算网调度能力和高效的异构计算能力,包括一站式的训推服务和丰富的行业应用。“息壤”算力平台能够把现在分散在全国各地的算力进行统一调度,目前已经在很多地方都实现了案例落地。
云计算其实在中国已经蓬勃发展了十多年。泰达论坛作为汽车行业的论坛,设有云计算的分论坛,也预示着随着人工智能的兴起,下一阶段的云计算和汽车行业的结合会越来越深入。在汽车行业数字化转型的背景下,未来汽车行业肯定也是往智能化、网联化方向发展,云计算在其中具有不可或缺的重要作用。
作为IT行业的从业者,我们对汽车行业的数字化转型做了一些总结和分析。在我们看来,汽车行业的数字化转型面临以下几个问题:(1)缺少信息系统的一体化顶层设计;(2)缺少统一的数据管理和服务的平台;(3)缺少敏捷开发的环境;(4)缺少一体化安全防护的能力;(5)缺少资源管理统一的抓手。
上面的问题并不针对所有的汽车企业,只是经过我们的一些实践及分析,提出了业界数字化转型可能会面临的问题。基于此,作为信息化的使能者和算力的提供者,我们也会定制化推出相应的平台。
天翼云迈过了向智能云拐点的重要标志,是五位一体体系的成熟。在算力层面,我们有智能的算力、智能的网络和人工智能赋能之下的新型数据中心。天翼云将坚定不移地投入自主研发,不断突破卡脖子核心技术。
从2012年成立以来,目前员工已经接近5000人,其中不包括分散在全国各地电信的销售体系人员。通过几年的高投入,我们已经拥有了全套自主可控的平台,电信内部也成立了AI公司和专业的数据应用团队,在大模型、智能智算服务方面开展了深入研究。
业界普遍认为,运营商的数据相对来说是比较优质的,我们在做好用户信息保护的前提下,力求最大程度地应用于社会和实践。天翼云具有丰富的行业生态,五位一体构筑了天翼智能云的服务体系,这套体系赋能车企也是正当其时,服务车企的智能化、数字化转型。
下面说一下算力。运营商开玩笑说中国电信是“新基建狂魔”,在数据中心、基础设施、网络建设方面是我们的使命和强项。我们在人工智能企业比较集中的如北上广、浙江、安徽等地都建立了智算中心,在绿色能源比较充沛的地域,如内蒙、贵州、宁夏等我们也有相应的部署。智算中心不单单是要服务一个企业,还要体现国家“双碳”的目标,充分利用绿色能源。
我们在北京、上海建的万卡算力资源池已经投入了使用,未来我们还会根据市场的需求逐步扩大建设。万卡算力资源池不是简单地把卡拿来堆叠提供服务,其中有非常复杂的系统工程算法和性能调优。目前天翼云自有的总算力已经超过了21亿,并且还在不断增长中。我们实现了一云多态,天翼云平台上有主流的GPU、NPU,公有云、私有云、边缘计算等都可以在这个平台上承载。我们自建的丰富算力和多种多样云计算的形态,对车企的智能化转型也是一个很好的助力。
天翼云能够提供人工智能、大数据、云计算一体化的全栈服务,在视频、存储、网络、安全、运营、运维等方面,都可以为汽车的研发、制造、供应链、营销以及汽车安全、车联网、智能驾驶等领域提供强大的数字化赋能的汽车行业平台,我们内部已经搭建并且正常运转。
强大的算法能力高效地实现了数据和算力的供需匹配,在自建算力的同时,天翼云发挥了强大的算力调度能力。我们通过算力的插件和网关实现了数据的统一调度和统一接入。在算力接入方面,智算时代的算力建设和运营有以下三种模式:
一是自建的公共算力平台可以实现生态合作伙伴的引入。目前我们已经通过算力平台实现了对超过39家的社会闲散算力进行公共算力调度,我们作为国企不能直接做采购和建设这类算力,但是通过与生态伙伴的合作已经接入了22EFLOPS的算力。
二是可以为行业搭建算力网络。国资监管平台以及高效的算力联盟都是已经落地的应用,形成为行业搭建算力的网络。
三是我们与很多地方政府合作,目前已经落地了深圳、贵阳、苏州、扬州等城市。政府成立了很多算力平台公司,通过使用天翼云平台一体化的智能调度服务,真正实现了“东数西算”,将很多分散算力进行集中统一调度。
这三种模式是现阶段应用得比较成熟的算力调度,实现算力和数据高效匹配的应用落地。
在做算力基础设施建设以及智算平台研发的同时,天翼云内部也有专业的机构正在进行AI、大模型的实践。在人工智能时代,AI大模型算力推进的落地也遇到了实际的挑战:
一是大算力挑战。众所周知,一个万亿参数规模的大模型至少需要6000卡乃至万卡的规模,大模型非常消耗算力。二是更高的性能需求。大规模的分布式训练面临着算力、存储、网络等各个方面的挑战。三是更高的稳定性。我们通过并行的存储和低时延超大规模的应用,稳定性达到了业界领先的水平。
天翼云通过对AI框架进行升级和存储的加速,实现了文件30秒保存和10分钟加载;通过对多项指标的监控分析,实现了90%故障可以在训前被发现。实际运行过程中,最长连续运行了155个小时没有中断,中断之后恢复的时间也控制在了15分钟左右,并且长期高频运行也超过了一个月的时间。智算平台、智算体系不是简单万卡的堆叠,而是通过实践的复杂的系统工程。
一站式的服务能力有效地解决了训练的工程复杂、效率低下、中断频繁的问题。在训练工程复杂的方面,通过预制一些行业的数据级,支持国内外的主流AI加速卡;通过预制大模型,实现了在平台上进行模型训练就是简单的选数据、选硬件、选机模,完成以上三个动作,行业大模型就可以顺畅推进了,由此解决了训练部署工程比较复杂的技术难题。
在训练效率低下方面,通过自研的AI框架实现了3D并行处理以及加速的算子库和容器的调优,训练效率提升了50%。通过模型的量化压缩以及自研的AI推理加速框架,推理效率提升了28%,这是通过内部的专业团队实践得出的数据。
在中断频繁方面,通过硬件解决了故障率高的问题。在大模型训练过程中,高能耗的同时进行高速运行,故障率是不可避免的。经过平台的调优,实现了1分钟检测、5分钟定位和1分钟告警。具有全链路的监控使中断的过程做到了可视化,业务的预警也可以提前告知。一站式的服务大大地降低了大模型应用和开发的门槛,车企未来在大模型的应用推广方面也可以深入探讨和实践。
运营商是一个中立、开放的平台,我们不会绑定某一条技术路线,我们打造的是一个开放、共融的生态。在贵州的大数据峰会上,基于大模型的开发者社区正式上线了,这个社区是刚刚才推出的,我们对它的希望是打造成国内领先的AI开放的开发者社区,让我们拭目以待。
云电脑是在云上领域应用比较常见的应用落地形态,在AI智能时代把云电脑进行了升级,将AI助手、AI空间、AI客服、AI低代码等都接入了最新一代的AI云电脑。
我们还打造了算数融合的套餐,一方面我们有算力、有平台,另一方面我们也有高质量的数据,同时也会跟行业的数据进行拉通,这样可以提供文本、图片、音频、视频等优质的数据源,为车企提供一揽子的算数融合的套餐式的服务。
以上的介绍是简明扼要地把天翼云成立十几年以来的应用实践。天翼云作为国家云,将携手汽车行业和生态伙伴,为车企的数字化应用、数字共生赋能,共同开创数字经济的新未来。
我的演讲到此,谢谢大家!