0

存储为何对AI至关重要

 6 months ago
source link: https://awtmt.com/articles/3709991
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

存储为何对AI至关重要

Andy730 发表于 2024年03月08日 09:29
摘要:随着数据集的日益庞大和模型的日益复杂,存储需要能够高效地扩展以满足这些需求,从而确保GPU的适应性,并保持高利用率,使AI服务器在工作流的每个阶段都能达到最佳效率。

2月21日,NAND 闪存解决方案提供商Solidigm与行业专家小组一起参加了人工智能活动并发表演讲。

在本次演讲中,Solidigm的Ace Stryker和Alan Bumgarner深入探讨了存储在AI工作负载中的核心作用。随着AI模型和数据集的不断扩大,高效且高性能的存储显得愈发关键。他们介绍了Solidigm,这家由SK Hynix收购Intel存储部门后成立的公司,专注于为AI应用提供一系列专业的SSD产品。

演讲中涵盖了以下要点:

  • AI市场的持续壮大,以及从集中式向分布式计算和存储(包括边缘计算)的转变趋势。

  • 硬盘在AI数据中的核心地位,以及向闪存存储转型的契机。
  • 存储在AI工作流程中的关键作用,包括数据的摄入、准备、训练和推理等环节。
  • 考虑到功耗、空间和冷却等因素,SSD相较于硬盘在总拥有成本(TCO)上的显著优势。
  • Solidigm产品组合的详细介绍,强调了适用于不同需求的SSD,并指出了根据工作负载选择合适存储的重要性。
  • 金山软件的客户案例研究,展示了通过采用全闪存阵列大幅减少数据处理时间的成果。
  • AI的未来巨大发展潜力,以及SSD在实现高效AI计算中的核心角色。

此外,演讲还深入探讨了Solidigm存储产品的技术细节,如云存储加速层(CSAL)的功能,并强调了与客户沟通,了解他们特定的AI工作负载需求,从而为他们提供最佳存储解决方案的重要性。

-----

1f643a93-c9c9-4502-a421-a7bd0cee6e28.png

今天,我希望能与大家深入交流,探讨存储对AI工作负载的重要性。

d83b5509-8f26-4ab0-ba0b-8da16d1d9ed9.png

当我们谈论AI硬件时,计算通常是首先被提及的部分,这无可非议。计算确实是AI服务器成本的主要构成,但今天,我们将重点揭示,随着行业的日益成熟和工作负载的多样化,存储如何逐渐展现出其重要性。我们将逐步解析AI工作流程的各个环节,并阐明存储设备在每个环节中所发挥的作用,以及这些环节所产生的IO需求。

1b02f29a-69a8-4a44-bde1-7d77c4297aa9.png

事实证明,AI确实是一项具有重大意义的技术。随着应用场景的不断拓展和架构的演变,特别是当模型所依赖的训练数据集变得越来越大时,我们观察到了一些数据趋势:存储的角色正变得愈发重要。无论是对于有效的扩展还是运营效率的提升,这一点都至关重要。因此,我们将对比SSD与硬盘的性能,探讨在AI服务器中,SSD在空间、冷却和功耗方面所带来的效率提升。

Solidigm拥有一系列广泛的产品组合,这些产品能够与各种应用场景完美匹配,具体取决于负责训练和部署模型的人员的特定目标和策略。在未来的几个月和几年里,你将会听到更多关于我们的消息,因为我们正逐步深入这一领域,并更加关注未来的机遇和技术创新。

cf9f33cf-f52d-4de6-b7a7-fcf8dc0ffb1a.png

关于我们的合作伙伴,值得一提的是,与全球最优秀的合作伙伴共事是这份工作最吸引人的部分之一。超微公司就是其中的一员。当然,我们在整个行业中还有许多其它优秀的合作伙伴,他们以各种创新的方式使用我们的SSD来加速AI工作负载、优化基础设施,并确保GPU得到充分利用。这只是我们与一些合作伙伴合作的缩影,也是我们一直在与他们分享想法的一些合作伙伴,因为我们深知战略合作的重要性。

24841a58-9c3f-4f71-8d27-9371302377ec.png

接下来,我们将从宏观视角展开讨论,并逐步深入到存储领域。目前,AI芯片的支出呈现迅猛增长态势,同时,计算和存储的分散化趋势也日益明显。这促使我们逐渐从传统的核心数据中心集中模式,转向更多工作向边缘迁移的趋势。在边缘端,我们可以执行更强大的任务,如实时推理和强化学习。因此,在设计和部署这些解决方案时,分布式架构的重要性日益凸显。同时,边缘的增长速度已远超核心。

短期内和中期内,硬盘在这个领域依然占据着重要地位。我们将就此展开讨论,并对比各种观点。根据我们的市场分析和与客户的交流,目前仍有80%到90%的数据存储在硬盘上,用于模型训练的准备工作。然而,我们也看到了一个巨大的机遇:加速向闪存存储的过渡,以更高效地完成这些工作。

6fa3d603-824e-4050-87b5-854d020b002d.png

此外,还有另一个值得关注的角度,它结合了来自“Our World in Data”这一庞大知识库的数据,该知识库由牛津大学运营。其中涵盖了一些大家可能非常熟悉的模型等内容。从这里的趋势线,我们可以观察到一些明显的变化。而在下一张幻灯片中,我们将看到GPT演变的具体案例。众所周知,模型正变得越来越大、越来越复杂,参数数量也在不断增加。同时,原始数据集也在扩大,经过标记和输入,使这些模型在生成洞察力和与人类交互方面表现得更加出色。为了支持这种发展,所需的计算量也相应增加。

观众:在之前的幻灯片中提到了AI服务器的存储内容有所增长3倍,这是指的存储的成本吗?

不是的,这个增长3倍指的是AI服务器中存储内容密度的变化,即存储容量的增加。对于训练环境的AI服务器来说,它们处理的数据量确实远大于大多数基于数据库的事务服务器。

2a604884-3541-4d1b-9420-7ff912e87e4c.png

我们也观察到,随着模型复杂性的提升,应用程序也在不断地丰富和扩展。尽管有些个人生活领域尚未被AI触及,但这并未妨碍AI在其它领域的广泛应用。技术的不断演进,为我们带来了许多新的机遇。其中,一个显著的机会是,我们可以借助技术来加速工作流程。而在这些领域中,存储需求无处不在。

a5902c91-0731-40f8-841e-18f7d10ab922.png

那么,为何存储对AI如此重要呢?数据集的增长速度呈现对数级态势,左上角的图表清晰地展示了这一点:从2018年的第一代GPT开始,GPT模型的训练参数数量持续攀升,GPT-3已经拥有数十亿个参数,而GPT-4更是高达数万亿个参数。这意味着,当你引入更多的数据并供模型学习时,它的智能水平也会随之提升。

在左下角的部分,我们列出了一些数据来源。如果你正在研究大型语言模型(LLM),你会发现许多模型都是基于Common Crawl Corpus(常见爬虫语料库)构建的。这个语料库每三到四个月就会对网页进行抓取,自2008年起一直在持续进行,目前已累积了13或15PB的文本数据,并且这一数字仍在不断增长。

存储对AI的重要性还体现在成本、功耗和空间的优化上。我们深知GPU的投入巨大,但这些GPU需要高性能的存储来高效地提供数据,并在整个过程中保持高利用率。特别是在关键时刻,如我们即将讨论的检查点,存储对于训练过程的顺利进行至关重要。如果存储性能不足,GPU可能会长时间处于空闲状态。因此,高性能存储在这些领域具有显著的优势。

关于功耗方面,底部中间的数据来源于Meta和斯坦福大学共同发布的一篇白皮书。他们指出,在特定应用场景中,存储消耗了整个服务器功耗的35%。如果能通过采用更高密度的存储和其它优化措施来降低这一比例,我们将能够节省大量的电力和资金。这也是我们强调高性能存储的重要原因之一。

至于分布式方面,我们讨论的是从这种一体化模式转变为整个工作流在特定地点进行端到端处理的情况。这种转变发生的具体位置,实际上取决于具体应用场景的需求,可能在多个不同的位置发生。我想强调的是,当我们查看这张图表和我们即将展示的其它内容时,请理解AI并不是一个单一的概念。对于不同的部署和应用,具体情况当然会有所不同。

观众:你可以解释一下“近边缘”(Near Edge)和“远边缘”(Far Edge)的概念吗?

核心数据中心,想必大家都很熟悉了。“远边缘”指的是那些可能位于外部环境、远离核心数据中心的设备。它们可能安装在卡车上,经过加固处理,或者就是终端用户与之交互的端点。而“近边缘”则相对较近,可能距离“远边缘”只有几英里的距离,它通常是一个区域性的数据中心。举个例子,托管数据中心就是典型的“近边缘”,而一个“远边缘”设备可能安装在电话杆上,或者嵌入在工厂的机械设备中,甚至是在汽车等物联网设备里。

观众:物联网设备也包括在内吗?

是的,是的。

观众:你提到数据准备和推理过程都是在物联网设备上完成的。那么,“Reinforce”是不是强化学习的意思?也是在物联网设备上完成吗?

强化学习并不一定需要将数据反馈到核心数据中心来改进模型。实际上,我们有很多客户与我们合作,他们出于各种考虑,不愿意将数据发送回核心数据中心。他们可能在某些地方设有服务器,但那里的网络连接并不稳定。因此,他们更倾向于在边缘端处理数据,并定期获取数据的快照,以便在条件允许时带回核心数据中心进行训练。

观众:你能分享一些具体的实例,说明这些实际场景可能是怎样的吗?

当然可以。实际上,现在有很多电话杆上都安装了小型的服务器盒子,你可以在我们的合作伙伴那里看到这样的产品。他们销售一种特别为电话杆设计的服务器。此外,电力变电站、偏远地区的机械工厂等脱离电网的地方,这些地方都有大量的机床和机器人在运作。你希望能够分析来自这些设备的数据,找出趋势、故障或不同的模式。实际上,这样的应用场景几乎无穷无尽。

观众:我很好奇,你的客户有哪些实际需求,与理论上的可能性相比,他们的需求有何不同?

确实,目前理论上的可能性是无穷无尽的,特别是对于深度神经网络模型来说。

359a3aa7-c802-429d-8e4e-81d66ef15233.png

我们继续深入探讨一下硬盘与SSD的看法。尽管我的观点可能稍显简化,但它确实凸显了闪存介质在性能上的显著优势。

这个表格中的行清晰地展现了AI工作流程的各个环节,我们会在后续部分详细剖析和描述。但不论哪个阶段,都有一个关键的I/O参数。从这张表中,你可以直观地看到,与传统的24TB硬盘相比,我们的D5-P5430产品在性能上有着巨大的提升。

当然,在某些特定情境下,这种性能差异会变得更加显著。例如,在实际应用中,为了满足最低的IOPS要求,HDD往往会被过度配置。这种做法不仅增加了你的总体拥有成本(TCO)计算复杂性,还可能导致你购买比实际需求更多的硬盘来满足容量需求。

另一方面,我们也要注意到,在一个体系结构中,比如一个服务器或一个系统资源内,存储设备往往身兼数职。它不仅仅是在单一的通道中运作。你的SSD在进行存储、准备和训练的同时,可能会受到多个通道的影响。也就是说,存储设备在执行训练任务的同时,可能还需要处理检查点任务或与其它并行通道进行准备任务。这导致了更为复杂的混合I/O工作负载。特别是在面对并发性或多租户环境带来的混合流量时,SSD的优势就更加明显了。

321249ea-435b-40e4-9c75-dae1c96356f8.png

我们之前多次提到了TCO,所以这里我想详细解释一下。TCO的计算涉及多个复杂因素。我们已经开发了一套全面的TCO计算器,尽管SNIA也有一个类似的工具,但我们的计算器考虑了更多不同的因素。当你深入了解并看到底部的紫色条时,就会明白其中的奥妙。

现在,假设我们正在解决一个AI数据管道的问题,需要一个10PB的解决方案。你可以选择全部使用硬盘来完成,或者选择我们的D5-P5336,这是我们目前提供的一款高密度QLC SSD,容量高达61TB。假设我们使用24TB的硬盘来存储这些数据,并设定70%的利用率。虽然这个数字看似保守,但我们了解到,有些合作伙伴认为50%的利用率可能更接近实际情况。但为了给硬盘留出更多空间,我们在这里采用了70%的利用率假设。

即使面临这种情况,你仍会发现驱动器密度提升了5倍。这不仅意味着这些驱动器能够存储更多数据,而且它们的体积也更小。我们从3.5英寸的外形尺寸转向了U.2,并且还提供其它外形尺寸以适应不同的产品需求。这一改变直接影响到你需要多少服务器来存储所需的数据,以及需要多少机架来安置这些服务器。因此,你可以将其视为一种连锁效应:更小的驱动器意味着更少的服务器、更少的机架、更小的数据中心占地面积以及更优化的功耗。

从单位基础来看,你可以对比不同的驱动器并做出选择。但总体来说,效益才是最重要的。你可以查看每瓦特的有效磁盘容量,并发现,由于这些驱动器容量巨大,所带来的功率密度实现了巨大的成本节约。这与TCO的效益直接相关,也与你在右侧列中看到的绿色图标紧密相关。因此,这不仅仅是关于节省成本的可持续性意义,我们还在谈论以更环保的方式实现这一目标。

当驱动器生命周期结束时,需要处理的硬件减少了5倍,更不用说你不再需要的服务器和机架了,这些都是生命周期结束故事的重要部分。

观众:当我看到这些信息时,我很难确定最大的成本驱动因素是什么,因为其中只有一个是带有美元标志的。是驱动器、服务器的数量还是密度成为了TCO的最大驱动因素?

我们在网站上提供了一个计算器,你可以使用它。计算器中有很多参数可以调整。但真正推动TCO的关键因素在于,闪存的创新为我们带来了61TB的驱动器。因此,从服务器占地面积、数据中心占地面积到最大功率消耗,这些都为我们带来了巨大的成本节约。

574d69ef-812e-4eae-b6f5-fd35dbf6e64e.png

接下来,我想补充一些SSD的额外优势。关于密度,在AI工作负载中,我们已经多次提及,就不再赘述了。至于XPU利用率,我们稍后会进一步讨论。而关于工作负载特性,Alan会为我们深入剖析。不过,在训练过程中,尤其是训练期间,我们当然希望GPU能持续保持高效运转。毕竟,你已经在这套硬件上投入了不少资金,自然不希望它因为数据供应不足或等待存储设备写入检查点而闲置。因此,高性能存储在这方面能够助我们一臂之力,最大化计算硬件的价值和效用。检查点和恢复机制是其中的关键环节,我们后面会详细展开。

d814d557-a1ea-4626-962d-f746654631e3.png

大家好,我是Alan Bumgarner,担任战略规划总监一职。我的主要工作是研究未来的内存技术,同时深入探索工作负载特性。

回到Ace之前提到的内容,大家还记得我之前提到的需要多少个HDD才能达到一个Gen 4 PCIe SSD的性能吗?答案是23个。也就是说,与单个机架的SSD相比,你需要9个机架的HDD才能达到相同的性能。当然,SSD的价格确实稍高一些。但从总拥有成本(TCO)的角度来看,当你运营一个庞大的GPU集群时,成本可不仅仅是设备本身的价格。想想微软为一个反应堆的融合初创公司投入了多少资金,以便为他们的新GPU集群提供动力。因此,大多数人在考虑时,首先想到的是功耗问题。

如果你仔细算一算,再结合数据中心的基础因素,你会发现大量的HDD不仅消耗大量的功率,而且你还需要为数据中心引入的所有新GPU提供电源。这是一个自然而然的过程。因此,你必须找到一个合适的区域来放置这些设备,更重要的是,你必须找到可以为这些设备提供足够电源的解决方案,因为它们的功耗相当高。有人知道H100的功耗是多少,或者A100的功耗是多少吗?

ccd8c22c-7b34-47f9-aa0c-02f9e0f4232a.png

整个流程分为五个阶段,这主要是基于生成式AI或深度学习推荐模型。这些模型都非常庞大,湾区的公司经常利用它们来处理各种任务。

在训练阶段,你需要收集大量的数据。但一旦你获得了这些数据,你会发现它们往往并不干净。因此,有很多讨论都集中在如何确保新的AI模型能在各种场景下表现出色。关键在于拥有一个经过精心策划和清洗的数据集,确保其准确性,然后再将其输入到GPU集群中进行训练。

还记得他们之前展示的那个小图表吗?它展示了在将数据送入GPU集群之前,Meta实际消耗的功率。说到存储和数据库,那其实是前期工作,也就是数据摄入阶段。你需要将这些数据转换成列和行的形式,然后在运行时进行矢量化处理。因此,在训练开始前,存储和数据库方面得忙个不停。紧接着,你就得开始给所有数据打标签了。

你观察过数据摄取时的IO情况吗?无论是ChatGPT还是其它应用,现在咱们摄取的互联网数据量差不多有13个PB那么大。像Meta这样的公司,一晚上就能从手机、电脑等设备和使用他们应用的人那里收集到海量信息。

接下来,你得处理这些数据,并找出怎么训练它们。你得有个强大的GPU集群来跑这些数据。大部分时间,你会从写入转为读取,特别是在你整理数据的时候。然后,到了训练阶段,你主要做的就是读取。最后,你完成了所有工作,得到了一个很棒的训练模型,接下来就要进行推理了。

5b1c7d66-9ed8-4af8-bdd2-6816a5523315.png

关于生成式AI模型的推理,当你向它提问时,期望得到相应语言的回答。而在工厂环境中,对机器工具进行预测性故障推理时,你可能会在工厂内使用已训练好的模型。这时,你会查找机器即将故障的模式,如振动、工具上的异常以及电源或电压变化。

推理可以在核心数据中心进行,就像我们在键盘上打字时,信息传输到AI模型中一样。此外,推理还可能出现在AI应用程序的管道中的多个环节。如果你将范围扩大,当拥有互联网连接和大数据管道时,你可以在云端完成许多任务。近端和远端都有许多有趣的事情可以做,尤其是当你没有那些数据管道时。

869abc6f-4d59-4315-b8fa-235fcc6947a7.png

当你深入探讨不同类型的AI模型和工作流程时,你会发现有些模型是不断读取数据的,或者是不断向SSD写入数据的。从我的角度来看,这样的性能并不算是高性能。因此,你可以使用像QLC驱动器这样的产品来处理。虽然它的写性能不是特别高,但读性能却非常出色。在检查点、训练或准备阶段,会有很多读和写操作,这就形成了我们所说的非常混合的工作负载。大部分操作是随机读和随机写,但随着你逐渐获得更干净的数据,操作开始变得更加顺序化,这时使用TLC驱动器就更合适了。

在进行训练时,你主要做的是读取数据。你摄入这些数据,将其传输到GPU集群中,并进行大量的单精度和双精度浮点计算。有人知道随机梯度下降是什么意思吗?我刚和我儿子讨论过这个问题,他正在学微积分。他说知道,这是什么意思呢?我解释说,这就像是在山上找到最佳路径的一条线。当你可以沿着山下的任何路径走时,你找到梯度下降的方法,然后进入推理阶段。推理是当你尝试使用生成的数据或模型来寻找一些有趣的东西时进行的。

0963c205-6800-497b-a66f-7f7fd0961524.png

有人知道Meta全球有多少个深度学习推荐集群吗?我记得好像是19个,这应该是最新的全球统计数字。想象一下,如果你把这些数字加起来,你知道总共有多少GPU吗?答案令人震惊,是35万个。没错,所以当你把这个庞大的数字除以19,你就能想象到他们必须为多少个GPU引擎提供数据,以及他们全球每时每刻都在处理多么庞大的数据量。而且,他们并不是唯一的,对吧?谷歌和亚马逊也有大量的集群在做着相同的事情,这已经持续了很多年。

当我们深入阅读这篇论文时,有一个有趣的发现。如果你看一下左下角的小电源图标,虽然没有明确说明,但我猜想其中大部分应该是HDD。随着人们逐渐意识到,为这些GPU供电以及所有这些集群消耗的电力越来越多,这些业务部署的地方变得越来越有限。因此,我们认为在可预见的未来,SSD业务会受到极大的推动。

57efef65-3c1d-42b4-b266-b205408e6372.png

如果我们的工作做得足够出色,并且已经成功说服你们认识到存储在AI服务器中的重要性,它不仅能够加速工作流程,还能在整个过程中提高效率。那么,下一个问题是什么呢?对于这种工作负载,我们应该如何选择存储方案呢?答案就像大多数好问题的答案一样,是因情况而异的。因此,在这里,我会根据我们目前的产品组合给出一些建议,这些建议会考虑到开发和部署模型的人们的具体需求。

接下来,我会逐条向你们介绍这些建议。首先,深紫色的方案是我们提供的最大性能的解决方案,它涉及到一种技术组合,这可能需要更多的解释。而其它推荐方案都是针对单驱动器的。在这个情况下,我们有一个软件层叫做CSAL或云存储加速层,它能够智能地将传入的写入指令引导到不同的存储设备。在系统中,它表现为一个设备,但在底层,CSAL实际上是负责流量调度的关键。

观众:你提到的设备具体是指什么?是指NAND芯片还是SSD呢?

简单来说,5810的缓存缓冲区采用的是SLC技术,因此它的读写速度非常快。这就是为什么它会被用作前端缓冲区,而后面则跟着QLC。

观众:我正在努力理解CSAL这个概念。

CSAL其实是一个在主机上运行的软件,作为缓存软件层存在。它内部包含两组驱动器,其中SLC驱动器会在QLC驱动器之前进行写入缓冲,因为QLC的写性能稍低一些。这就是它如此重要的原因。

这也是这个解决方案能在各种工作负载中脱颖而出的原因之一。通过QLC组件解决方案,我们可以获得巨大的存储容量。同时,由于有SLC驱动器存在,我们还能获得惊人的写入性能。CSAL会负责在整个工作流程中最优地使用这些元素。

观众:当我们看到不同的阶段时,并不是所有的环境都会在预训练检查点推理的一开始就存在。很多时候,这些可能是不同的系统。那么,以准备阶段为例,我们来看看CSAL是如何帮助准备的。之前有个演示提到,在实际将作业发送到GPU之前,他们花了两周时间来找到想要训练的数据。因此,将正确的数据发送到系统中是非常关键的。那么,CSAL在这个过程中是如何发挥作用的,有助于优化准备工作呢?

这是个很好的问题。我们在这个问题上进行了深入的思考。但我认为,最简单的方法是根据你要摄入的数据量来决定。如果你能以较慢的速度写入数据,因为数据是以时间序列方式传输的,那么像CSAL这样的技术可能会非常有用。你可以写入大量数据,并且它还能将数据压缩得很好。当你从QLC驱动器中提取数据时,我们的看法是,如果你正在进行ETL操作,也就是列和行的转换,那么你可能需要TLC驱动器的性能。因为这个驱动器能为你提供几乎最佳的读写组合。所以,当开始索引数据、进行整理并清除重复项等操作时,这是优化中间平衡性能的关键时刻。第一行推荐适用于数据摄入和训练阶段,但当你进行ETL时,我们认为使用TLC驱动器更为合适。

第二行是一个平衡型推荐,以中紫色呈现。这里的读写性能非常出色,而且成本相较于我们推荐的带有SLC缓冲的解决方案要低。之所以在这一行看到两个驱动器,是因为5520是TLC驱动器,而5430则是QLC驱动器。根据我们分析的工作负载以及从客户和合作伙伴那里收集到的数据集大小等信息,我们认为这两种驱动器都是不错的选择,尤其适合那些希望以较低成本获得高性能解决方案的客户。柱状图的着色展示了两者之间的相对能力,其中5520 TLC驱动器以橙色点标识,而QLC驱动器则以白色点表示。不过,无论选择哪种驱动器,性能都非常强大,能够很好地满足许多AI工作负载的需求。

与上一个示例相比,这个示例中的工作负载和需求存在明显差异。与深紫色行相比,选择哪种方案取决于多个因素,比如原始数据集的大小、需要通过多少个GPU处理数据等。因此,很难直接将某一行与特定的应用场景类别对应起来,除非我们更深入地了解客户的具体需求。这实际上是为了开启对话而设计的。

或许我可以给你举两个我们一直在讨论的例子来说明。在进行像互联网爬取这样的操作时,当你尝试将大量数据导入进行索引或ETL功能时,可能会遇到性能瓶颈。记得我们最初制造SLC驱动器时,它们的容量非常有限。而TLC驱动器则可以每个单元存储三个位,而不是每个单元存储一个位,因此你可以在相同数量的芯片中获得三倍的容量。因此,随着驱动器容量的增加,每个单元存储的位数也相应增加,读性能保持稳定,但写性能会有所下降。

如果你从互联网爬取开始处理大量数据并需要快速写入,你可能需要选择像TLC这样的驱动器或具有平衡性能的驱动器。而如果你从稳定的数据源中摄取数据,则可能有时间缓冲数据并将其写入更大容量的驱动器。这完全取决于你的数据摄取模式。

观众:如果这个过程这么复杂,每个销售人员是否都必须进行咨询式销售呢?客户如何充分理解其中的复杂性,从而选择到满足他们需求的产品呢?

其实,这个情况跟电子邮件数据库刚开始的时候有点像。那时候,每个销售人员也都得进行咨询式销售,因为选择产品得看你的组织每天发多少电子邮件,以及你希望从磁盘获得多少性能。对于AI来说也是这样,选择取决于你如何使用模型,以及你打算用模型训练什么样的数据。所以,比起一般的情况,咨询的需求就显得尤为重要。

观众:关于这个五年的TCO,这个数字挺有意思的。几年前,我们处理内存数据库时就用过这个数字,那时候我们建议客户不要使用超过两年的服务器。AI的发展速度甚至超过了这些服务器在技术上的使用寿命。那么,在谈到磁盘与物理分布式系统的生命周期管理策略时,你们有没有考虑到TCO?你们是不是觉得这项技术进展比较慢,所以折旧周期会长一些?还是你们只是选了五年,因为五年一直是个常用的数字?

实际上,我们之所以设定五年的保修期,主要是基于驱动器每天可以实现的写入次数,而这在很大程度上取决于驱动器的容量。现在我们在数据中心使用的M.2驱动器已经有2到4TB的容量了,甚至有的驱动器容量达到了30到60TB以上。这样一来,每天驱动器的写入次数就大大增加了。所以,随着时间的推移,原本五年的TCO可能会延长到七年。当然,还有很多其它因素需要考虑,比如功耗、楼面空间等。这就像,原本需要9个硬盘机架才能完成的工作,但到了Gen 4、Gen 5,从性能上来说已经有了很大的不同,到了Gen 6和Gen 7,这种差距还会进一步扩大。总之,影响保修期的因素很多,但五年的保修期基本上就是我们为SSD提供的保修时长。

观众:从历史角度看,SSD在顺序写和垃圾收集等方面确实遇到过一些挑战。随着驱动器容量的不断增大,垃圾收集的重要性也越发凸显。在某种程度上讲,当你以我们所说的速度进行顺序写时,垃圾收集这方面的问题确实需要引起更多的关注。至于随机写的数量,虽然具体的数字我记不太清了,但可以说,数百个随机写无疑会使情况变得更加复杂。

实际上,我们有很多客户使用的驱动器已经超过了五年,还有一些正在开发中的主机软件。你可能听说过Flexible Data Placement这个功能,它是由我的同事John和几位来自Google及Meta的同仁共同研发的。这个功能可以将几乎所有的数据按顺序写并均匀分布到芯片上,从而实现更为均衡的性能。这背后涉及到我们在固件、闪存转换层和控制器等多个层面所完成的工作,同时,一些功能也开始逐渐脱离主机,使主机在进行相关操作时能更加智能化。因此,我们一直在努力解决早期垃圾收集所带来的一些问题,而Flexible Data Placement正是我们在这方面所取得的一个重要成果。

观众:这也是为什么我们需要SLC和其它解决方案来协助管理写入活动的原因。

这些解决方案的核心目标就是为了提升速度。

观众:现在我对CSAL的应用场景和它在系统中的呈现方式有了更深入的理解。接下来,能否谈谈相关的软件情况?每次听说又有新的软件需要管理,特别是在边缘计算环境中,我都会思考如何有效地管理它,它的更新频率是怎样的,以及如何确保CSAL的生命周期管理在边缘部署中得以妥善实施。

这款软件是开源的,有一个活跃的社区在维护它,目前它托管在GitHub上。从维护的角度来看,你可以看到外部的贡献和其它方面的进展。这是因为很多人都希望能够亲自参与并为其添加新功能,所以它已经开始展现出自己的特色和活力。

观众:你是否期待这款软件最终会整合进Linux内核呢?

不,我并不期待这款软件会整合进Linux内核。相反,它更像是一个缓存层的工具,不仅可以指引写入到正确的位置,还能优化写入,使其更具顺序性。就像使用Flexible Data Placement时,你可以轻松地将数据发送到QLC驱动器。

观众:这跟我管理其它所有软件包和更新的方式是一样的。所以,如果我从GitHub下载它,无论我在做什么,比如升级系统组件、驱动程序等,我都可以使用相同的流程。这并不是一个特殊的更新软件的过程,而是相当标准的。

我们来看看这张幻灯片的底部,这里重点介绍的是我们的超高容量解决方案。就像我之前提到的,D5-P5336可以达到61TB的容量,这是一个QLC驱动器,所以它的读取优化性能非常出色,但写入速度会稍逊于TLC。

就像Alan提到的一个应用场景,你可能有一个稳定的数据流或其它设置,在这种情况下,你并不需要尽快摄取大量数据,但你确实拥有大量的数据。

观众:根据我对这张图的理解,你提到的是P99的随机写延迟最佳,但P99的随机读延迟处于中等水平,这里讨论的是NVMe SLC SSD,属于顶级解决方案。这是与HDD相比,还是与其它SSD相比呢?

这些都是相对于幻灯片上展示的其它产品的比较结果。我们试图展示的是我们产品组合内的相对优势,以及可以预期的性能表现。

观众:所以,这个解决方案的P99随机读延迟大约是P5520的一半。我的理解对吗?

是的,你的理解是正确的。这是因为数据在刷新到QLC驱动器之前,可以先写入SLC驱动器进行优化。

观众:你提的是随机读??

我现在对你的问题有了更明确的回答。P99随机读延迟是源自QLC驱动器的,这取决于我们如何评估它。因为实际上并不是从SLC驱动器进行读取,SLC只是一个用于刷新的缓冲区。所以,我们会先将数据写入SLC,然后再刷新到QLC,但读取操作始终是直接从QLC进行的。因此,从P99读取延迟的角度来看,实际上在这三个方面表现都是相同的。如果从QLC的角度来看,在所有这些泳道中,所有的读取操作都是直接从QLC完成的,或者在中间泳道的情况下,比如P5520,它来自TLC,它们的高读取性能实际上也是相当的。所以,感谢你指出,看来我们在这里确实存在一点小误解。

9129b144-7b0e-4641-85a0-db8d641042dc.png

接下来,我要分享一个客户案例,这是我们与金山软件合作的一个客户。

他们之前有一个基于硬盘的对象存储解决方案,顶部配置了少量的SSD,但在新的解决方案中,他们全面转向了闪存阵列,并命名为K53 Extreme Speed。这是他们一个客户的数据,他们加载了一个40TB的原始数据集,准备进行清洗并输出给模型。整个过程的时间从原本的近6小时大幅缩短到了11分钟,这主要得益于硬件的升级改进。

1157795f-46f4-4823-b44a-e155a0093f65.png

总结一下,存储无疑是一个至关重要的问题。随着数据集的日益庞大和模型的日益复杂,存储需要能够高效地扩展以满足这些需求,从而确保GPU的适应性,并保持高利用率,使AI服务器在工作流的每个阶段都能达到最佳效率。

此外,成本在SSD的考量中也扮演着举足轻重的角色。我们讨论了关于功率效率、机架空间以及数据中心占地面积等问题。并非所有的存储解决方案都能胜任这些任务。有些人可能认为昨天的技术已经足够好,但我们的观点是,为了实现真正的技术进步,并在这里启用新的解决方案、提高效率和输出水平,SSD无疑是架构中不可或缺的一部分。

本文作者:常华Andy,本文来源:Andy730,原文标题:《存储为何对AI至关重要 - Solidigm》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK