4

数据湖加速器GooseFS,加速湖上数据分析性能

 3 years ago
source link: https://segmentfault.com/a/1190000040357241
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

数据湖加速器 GooseFS 是由腾讯云推出的高性能、高可用、弹性的分布式缓存方案。依靠对象存储(Cloud Object Storage,COS)作为数据湖存储底座的成本优势,为数据湖生态中的计算应用提供统一的数据湖入口,加速海量数据分析、机器学习、人工智能等业务访问存储的性能。

GooseFS 采用了分布式集群架构,具备弹性、高可靠、高可用等特性,为上层计算应用提供统一的命名空间和访问协议,方便用户在不同的存储系统之间管理和流转数据。

零、产品背景

近些年来以对象存储作为统一数据湖存储的趋势越来越明显。对象存储具有低成本、高可靠、弹性等特性,因此很适合信息爆炸时代海量数据的存储,越来越多的企业将大数据存储从 HDFS 迁移到对象存储中,采用对象存储或者对象存储+HDFS混合存储架构实现企业级冷热数据分层方案。但在数据湖方案下,企业仍然面对以下问题:

性能问题:大数据场景中,Map 和 Reduce环节均需要频繁对文件进行List 和 Rename 操作;但对象存储的扁平式架构设计导致在这些操作上天然具有性能瓶颈。此外,数据跨机房存储会进一步增加数据湖架构下的请求延迟,而近年来流批一体的应用越来越广泛和深入,大数据业务对实时性要求越来越高,因此需要尽可能让热数据更靠近计算端,以便提升业务性能。

成本问题:对于离线大数据业务而言,往往需要尽可能快速地拉取大量重复的数据到计算集群中进行分析,在数据湖的存算分离架构下,会对存储带宽有很大的压力。这种模式下峰值带宽高,平均带宽小,容易产生大量的资源浪费和成本消耗。因此将热数据缓存到计算节点,减少带宽消耗能够降低业务成本。

运维问题:相当多的业务采用 HDFS 和 对象存储等不同存储服务构建混合存储架构,在这种业务模型下需要维护多种不同的存储接口,增加了运维的复杂度。因此,如果有一套存储服务能够对接不同的后端存储系统,为上层计算业务提供一致的访问视图,将能极大地减少业务开发的难度,提升存储服务使用效率。

一、产品功能

GooseFS 旨在提供一站式的缓存解决方案,在利用数据本地性和高速缓存,统一存储访问语义等方面具有天然的优势;GooseFS 在腾讯云数据湖生态中扮演着“上承计算,下启存储”的核心角色,如下图所示。

GooseFS 基于开源大数据缓存方案 Alluxio 进行设计和研发,相较于开源方案,GooseFS 提供了更多关键特性,稳定性和性能优化;同时深度融合了腾讯云生态,对接了腾讯云TKE、EMR等计算服务,为用户提供开箱即用的能力。

主要功能如下:

缓存加速和数据本地化:GooseFS 可以与计算节点混合部署提高数据本地性,利用高速缓存功能解决存储性能问题,提高读写对象存储 COS 文件的效率。

融合存储语义:GooseFS 上层统一的接口协议,支持对接对象存储COS,云上HDFS和私有化存储CSP,并且针对腾讯云COS,CHDFS,CSP等产品做了特殊优化,适用于多种生态和应用场景。

统一的腾讯云相关生态服务:包括腾讯云监控、日志和鉴权的支持。GooseFS 已经顺利对接腾讯云 EMR,腾讯云 TKE 和腾讯云 EKS 等;同时支持对接腾讯云监控,腾讯云日志服务 CLS 和腾讯云 ES,Prometheus和 Grafana 等服务。

元数据管理功能:GooseFS 支持按照 Hive Table 或者 Table partition 级别将存储在COS或者CHDFS 上的数据异步缓存到本地节点;支持按照 Namespace 配置不同元数据管理方案。

二、产品优势

GooseFS 在数据湖场景中具有如下几点明显的优势:

1.数据 I/O 性能

GooseFS 部署提供近计算端的分布式共享缓存,上层计算应用可以透明地、高效地从远端存储将需要频繁访问的热数据缓存到近计算端,加速数据 I/O 性能。

GooseFS 提供了感知元数据 Table 的功能,能够加速大数据场景下列出文件列表(List),重命名文件(Rename)等元数据操作的性能。此外,业务可以按需选择MEM, HDD, SSD,NVME SSD 等不同的存储介质,平衡业务成本和数据访问性能。

2.存储一体化

GooseFS 提供了统一的命名空间,为上层业务提供了统一的接口协议,底层支持对接COS、CHDFS、CSP等不同的存储服务,简化业务侧运维配置。存储一体化能够打通不同数据底座的壁垒,方便上层应用管理和流转数据,提升数据利用的效率。

3.生态亲和性

GooseFS 全兼容腾讯云大数据平台框架,也支持客户侧自定义的本地部署,具备优秀的生态亲和性。业务侧不仅可以在腾讯云弹性 MapReduce 产品中使用,GooseFS 加速大数据业务,也可以便捷地将 GooseFS 本地化部署在公有云 CVM 或者自建 IDC 内。此外,GooseFS 也支持了透明加速能力,支持通过 COSN Interface一访问对象存储;对于已经使用 COS 大数据插件 COSN 的用户,可以非常方便地将 GooseFS 引入到 COSN 中使用。

三、结语

GooseFS 旨在提供一站式的数据湖缓存加速解决方案,方便用户在不同的存储系统管理和流转数据,提升您的数据利用效率。

如果您想要详细了解 GooseFS,并进行部署和体验,可以点击阅读原文查看 GooseFS的配置文档。

                                      — END —

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK