9

阿里 ECS 是一台物理机器构成的还是多台物理机器构成的?

 2 years ago
source link: https://www.v2ex.com/t/823538
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

V2EX  ›  云计算

阿里 ECS 是一台物理机器构成的还是多台物理机器构成的?

  lopssh · 14 小时 32 分钟前 · 2727 次点击

阿里 ECS 是一台机器构成的还是多台机器构成的?

  1. 是一台物理机实现(某一台池化机器上的某个虚拟机)
  2. 还是多台物理机构成的网络计算机(即:纯粹基于网络的计算机,比如:内存由北京的一个服务器组成,CPU 由广东和福建的两台服务器共同构成,硬盘是浙江的三台服务器构成的)

请问是 1 还是 2 ?

如果不是 2 ,那么现在的技术世界里 存不存在 2 这种实现?

第 1 条附言  ·  13 小时 18 分钟前

了解到有一项叫做“超融合”的技术,有点类似于 2 的情况。
43 条回复    2021-12-21 22:37:33 +08:00

ThirdFlame

ThirdFlame      14 小时 29 分钟前

显然是 1
2 的话成本有点高 而且开销有点大

julyclyde

julyclyde      14 小时 28 分钟前

古代有个 mosix 可以把多个机器合并为一个
不过后来这东西没继续发展了

现在的 ecs 应该都是小于等于一台物理机的

wy315700

wy315700      14 小时 26 分钟前

内存和 CPU 应该是一起的,硬盘分本地硬盘和云硬盘

PopRain

PopRain      14 小时 19 分钟前   ❤️ 1

你在开玩笑吗? 内存、CPU 不在一台计算机上? 硬盘可能是网络的,但是一般也是在同一个机房,不太可能异地,异地也只是备份而已。

andyskaura

andyskaura      14 小时 12 分钟前   ❤️ 1

太看得起网络带宽了吧

seasona

seasona      14 小时 7 分钟前

1 ,ecs 其实就是 QEMU/KVM 开出的一台虚拟机,CPU 和内存都是一台本地服务器的,硬盘基本都是网络盘

swulling

swulling      13 小时 59 分钟前

CPU 和内存是一台宿主机上的,硬盘通常挂载同一个可用区的云盘。

这是因为网络带宽和时延,也就刚刚追上硬盘,离内存还远(受到物理规律限制可能永远追不上)

stoneabc

stoneabc      13 小时 55 分钟前

@PopRain 不过最新的各种内存、gpu pooling 的研究,过个几年真有可能 cpu 、内存、gpu 等设备都不在一台物理机上了…

t6attack

t6attack      13 小时 55 分钟前

研究过 GPU 编程的朋友,可能会发现一个问题:当运算数据量很小的时候,速度提升并不明显,甚至比 CPU 计算更慢。原因是 GPU 带来的速度提升,被“向 GPU 传递数据所消耗的时间”所抵消。
你看,半个主板的距离,速度损耗都让人无法接受。你这直接给拉开两个城市了。

Alexonx

Alexonx      13 小时 52 分钟前 via Android   ❤️ 2

2 的实现的话,目前受限于网络带宽,很少有大规模的应用。OSDI '18 有篇论文挺类似的,这个论文描述的系统架构把硬件分成了处理器、内存和存储三种,中间通过网络进行通信,但是其中操作系统要付出大量的代价来保证一致性和容错。
PDF:https://www.usenix.org/system/files/osdi18-shan.pdf

2i2Re2PLMaDnghL

2i2Re2PLMaDnghL      13 小时 30 分钟前

@stoneabc 但做法也不太可能是表现为一台机器(一个操作系统),而是表现为一个任务分发器(一个编排系统)

justs0o

justs0o      13 小时 24 分钟前

第二种除非有突破光速的东西出来,否则永远不可能

kenshin912

kenshin912      13 小时 22 分钟前

显然是 1
内存和 CPU 必然在一台宿主机上 , 不然那延迟......
硬盘也应该在同一个机房内.

lopssh

lopssh      13 小时 17 分钟前

@Alexonx

@julyclyde

@stoneabc

有一项叫做“超融合”的技术,不知道是否部分符合了 2 的定义。

felixcode

felixcode      13 小时 10 分钟前

带宽可能可以通过技术革新来解决,但延时是受物理规律限制的。

CPU 和内存间有几到几十毫秒,再融合也不行,超融合也不行,再多的超字也不行。

FantaMole

FantaMole      13 小时 7 分钟前

超融合老是让我出戏到打牌

westoy

westoy      13 小时 0 分钟前

红帽的超融合是基于软件方案的定义, 又不是你说的那种六神合体......

loading

loading      12 小时 59 分钟前

@lopssh #14 你知道现在的超融合是怎么回事吗?约等于坑人。
你说的那种是集群,超过一台计算机能力的才需要把一个实例分布到多台物理机,你说的可能是指超级计算机。你自己查一下,阿里的 ECS 哪一个配置超过现在一台普通的服务器的配置了?

freelancher

freelancher      12 小时 57 分钟前

@lopssh 无语了都。超融合能突破物理极限吗?

超融合的本质是分布式存储 + 虚拟化融合部署,核心是分布式存储。

存储放另一个地区都会造成巨大的网络延迟。

没事就多看看计算机的书!我潜水的都被炸出来了!

stoneabc

stoneabc      12 小时 56 分钟前

@felixcode 先不说能不能实现。。现在云厂商普通 vpc 内网的延时也就个位数 ms 。。上 Roce 之类东西的话能到个位数 us 级别

mikuazusa

mikuazusa      12 小时 53 分钟前

只能是 1 ,2 的情况目前的超融合也达不到。
想了解超融合的,看一下什么是超融合一体机就知道了。

felixcode

felixcode      12 小时 49 分钟前

@stoneabc
"内存由北京的一个服务器组成,CPU 由广东和福建的两台服务器共同构成"
这个怎么能达到 us 级别?

freelancher

freelancher      12 小时 48 分钟前   ❤️ 2

令人震惊的计算机文盲。不多说了。看完帖子我能气晕。

stoneabc

stoneabc      12 小时 47 分钟前

@felixcode 仅指 “多台物理机构成” ,跨地域当然不行

felixcode

felixcode      12 小时 38 分钟前

@stoneabc
roce 的个位数 us 级延时是指适配器延时,没算上传输延时。
哪怕是个位数 us 级的延时,放到现有的架构上,内存与 cpu 之间的延时也是现有单机的上百倍了。

Chase2E

Chase2E      12 小时 33 分钟前

<=一台物理机器,云计算的本质就是利用冗余资源嘛

b1u2g3

b1u2g3      12 小时 25 分钟前

无知,半知半解 =》无畏

chnyuwen

chnyuwen      12 小时 22 分钟前

一时无力吐槽,这竟然是个开发问出的问题,建议重修计算机。

msg7086

msg7086      12 小时 18 分钟前 via Android

超融合我记得只有存储是共享的吧,而且也是走 IB 之类互联的。
这些技术的难点都在于突破光(电)速。
CPU 和内存之间十几厘米的距离到顶了,拉到隔壁桌子都不行,你还跨省。这么远的距离,4GHz 的 CPU 瞬间被拉成 4KHz 。

markgor

markgor      12 小时 16 分钟前

所谓的超融合其实就是现在云厂推的无服务器应用...单纯跑一个应用的。
只涉及到存储 /计算 /带宽 能力。
和虚拟机完全不是一个级别的。
另外阿里 ecs 也不是一台物理机器;

存储->建立存储池,末端是多台物理机器;
CPU/内存->集群中建立的虚拟机;
比方 A 集群中由 3 台物理机组成,虚拟机的配置运行仅仅会在其中一台节点中生效。
当发现这个节点异常时,集群会把配置文件移动到另一个节点中。由于数据的存储是存储池中的,所以这个移动其实仅仅是配置。

如果你有租用超过 3 年的云主机,你细心查看会发现有过自动重启的日志(可能看运气吧,但我其中一台试过),提交工单后答复由于宿主机异常,导致了转移,所以引起云服务器重启....

内存带宽大概是 4200MT/s ,网络带宽需要达到怎样的条件才能这样异地组机呢,而且还没考虑稳定性...
这有点过渡设计了....

eason1874

eason1874      12 小时 7 分钟前

硬盘可以通过网络连接,大部分场景能满足,需要高 I/O 的除外

CPU 和内存通过网络连接不可行,损耗极其大,说可行的要么不懂,要么骗子

这题目让我想起好多人以为超算就是堆 CPU 堆内存。。。

julyclyde

julyclyde      11 小时 40 分钟前

@lopssh 那只是个市场用语

ch2

ch2      11 小时 35 分钟前

你用过就知道,哪台机器性能指标啥样都得提前文档里写好的,同一个大区不同小区之间高几毫秒延迟都得说的清清楚楚,不在一台机器上的都能猜得到

xingHI

xingHI      11 小时 15 分钟前

香港轻量最低配什么价格

PMR

PMR      11 小时 7 分钟前 via Android

内存延迟超过 80/90ns 都已经出现计算能力下降的情况

内存 cpu 在上广的情况
天翼云在两地网络延迟能摸到 29ms
这延迟带来是非常致命

l4ever

l4ever      10 小时 46 分钟前

内存、CPU 必须在一起, 人家厂商为了最大化的加速, 恨不得把内存集成到 CPU 里面去.

vhwwls

vhwwls      10 小时 26 分钟前

底层是高度定制化的 KVM ,CPU 和内存当然只能是同一台机器上的,至于硬盘视情况而定,大部分情况是分布式存储上的。

tinybaby365

tinybaby365      10 小时 9 分钟前

CPU 和内存来自同一台 host ,( CPU 和内存都归为计算资源),磁盘可以来自该 host ,也可以是外部的云盘。云盘也是不会出 zone 的,不可能跨 region 的,延迟太大了。云盘使用的是 RDMA 类的方案。

littlewing

littlewing      9 小时 39 分钟前

如果你买的是 1024C1024T 的配置的话,有可能是 2

lamesbond

lamesbond      6 小时 58 分钟前

应该是 1 ,阿里专有云资源快用完的时候,能开好几台 1 核,2 核的 ecs ,但开不出一台高配的,这些 1 核,2 核的就是每台物理机的“边角料”

dianso

dianso      6 小时 55 分钟前

内存一般都在香港吧,网线应该在美国和欧洲,硬盘在国内,毕竟数据重要。

Buges

Buges      6 小时 53 分钟前 via Android

除了硬盘都是 1 。其实 serverless 可以算是一种类似 2 的实现,不过你关心的不再是机器而是应用程序本身。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK