2

常见的大数据存储工具

 2 years ago
source link: https://www.51cto.com/article/717797.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

常见的大数据存储工具

作者:张妮娜编译 2022-09-01 23:34:18

大数据分析需求迫使数据存储范式发生巨大转变,从传统的基于块和文件的存储网络转向更具可扩展性的模型,如对象存储、横向扩展 NAS 和数据湖。

​大数据需要大存储

f2c60ab51b4d2008eb6593219f4243ac8e3c2a.jpg

大数据是一个包罗万象的术语,是传统数据处理软件无法处理的大量复杂的非结构化、半结构化和结构化数据集。这些数据集是从大量资源中生成的,例如大型电子商务、医疗记录、图像和视频档案以及购买交易记录。

大数据分析可以揭示关联、趋势和模式,尤其是与人类互动和行为相关的。当前有许多专业设计的硬件和软件工具可用于大数据分析。

从大数据中提取有意义的洞察,有助于做出关键的业务增长决策。因此,大量IT投资用于维护和管理大数据。预计到 2023 年,大数据行业的价值将达到 770 亿美元。不过,要理解大数据,第一步需要了解的是主流的大数据存储工具。

为什么需要大数据存储工具

到 2025 年,将需要分析超过 150 ZB 的数据。只有拥有能够大规模扩展以应对大数据挑战的安全存储解决方案,组织才能利用大数据的力量。大数据存储工具收集和管理大数据并实现实时数据分析。

一般来说,大数据存储架构分为以下几类:

  • 地理分布的服务器节点,例如 Apache Hadoop 模型
  • 数据库框架,例如SQL (NoSQL)
  • 横向扩展网络附加存储 (NAS)
  • 存储区域网络 (SAN)
  • 固态硬盘 (SSD) 阵列
  • 数据湖(以原始格式存储数据的存储库或系统)

常见的大数据存储工具

Apache Hadoop

Apache Hadoop 是一个开源软件库,可以使用简单的编程模型跨计算机集群(称为节点)对大型复杂数据集进行分布式处理。该框架旨在扩展到数千个节点,每个节点都提供本地计算和存储。Apache Hadoop 旨在检测和处理应用层的故障,从而在计算机集群之上提供高度可用的服务,每个集群都可能容易出现故障。

Apache Hadoop 包括以下模块:Hadoop Common、Hadoop 分布式文件系统 (HDFS)、Hadoop Yet Another Resource Negotiator (YARN) 和 Hadoop MapReduce。Hadoop Common 是指支持其他 Hadoop 模块的通用实用程序和库。

HDFS 提供对在商用硬件上运行的大型复杂数据集的高吞吐量访问。HDFS 用于将单个节点扩展到数千个节点。HDFS 的目标包括从硬件故障中快速恢复、访问流数据、容纳大型复杂数据集以及可移植性。

Hadoop YARN 是一个用于作业调度/监控和集群资源管理的并行处理框架。

Hadoop MapReduce 是基于 YARN 的系统,用于并行处理大型复杂数据集。

Apache 的 Hadoop 相关项目包括 ZooKeeper、Tez、Submarine、Spark、Pig、Ozone、Mahout、Hive、HBase、Chukwa、Cassandra、Avro 和 Ambari。

Apache HBase​

Apache HBase 是一个开源、分布式、版本化的 NoSQL 数据库,它以 Google 的 Bigtable 为模型。它在 Apache Hadoop 和 HDFS 之上提供类似于 Bigtable 的功能。

Apache HBase 的目标是在商用硬件集群上托管大型复杂表(数十亿行和数百万列)。HBase 提供模块化和线性可扩展性,提供严格统一的读写。

NetApp 横向扩展 NAS​

NetApp 是 NAS 行业的先驱。NetApp 横向扩展 NAS 可简化数据管理,在降低成本的同时跟上增长的步伐。大数据工具在统一架构内为组织提供无缝的可扩展性、效率提升和无中断操作。

NetApp 横向扩展 NAS 由 NetApp ONTAP 企业数据管理软件提供支持。用户可以使用 StorageGrid 自动将冷数据分层到私有云或公共云,以最大限度地提高性能层的容量。云层和性能可以合并到一个数据池中,从而降低总拥有成本 (TCO)。

数据可以在边缘访问,并且可以跨多个数据中心和所有具有集成缓存功能的主要公共云访问。

Active IQ 使用人工智能进行 IT 运营 (AIOps) 来自动执行 NetApp 环境的主动优化和维护。用户可以在不影响性能的情况下对存储进行重复数据删除和压缩。借助内置的数据安全性,用户可以保护敏感的客户和公司信息,可以在卷级别加密传输中的数据和数据,以及安全地清除文件。

用于数据湖分析的Snowflake 

Snowflake 的跨云平台提供对所有数据的快速、可靠和安全的访问。Snowflake for Data Lake Analytics 结合了任何格式的非结构化、半结构化和结构化数据;提供快速可靠的处理和查询;并实现安全协作。

大型和复杂的数据集可以存储在 Snowflake 管理的存储中,并具有静态和传输中的加密、自动微分区和高效压缩。可以在单个平台上使用所选择的语言(Scala、Python 或 Java)支持非结构化、半结构化和结构化数据上的大量工作负载。借助 Snowflake 的弹性处理引擎,可以运行管道以实现低维护、节省成本和可靠的性能。

可以使用选择的语言(SQL、Scala、Python 或 Java)和 Snowpark 来简化管道开发——无需管理数据、服务或集群的额外副本。几乎无限的专用计算资源可以支持无限数量的并发查询和用户。使用内置的访问历史记录,可以知道谁在访问哪些数据。Snowflake 支持利益相关者之间的协作,并通过安全、实时的数据共享丰富企业的数据湖。借助可扩展的基于行的访问策略,企业可以跨云实施行和列级别的安全性。

Databricks Lakehouse 平台​

Databricks Lakehouse Platform 结合了最佳的数据湖和数据仓库。大数据存储工具提供数据仓库的性能、强大的治理和可靠性,以及数据湖的机器学习 (ML) 支持、灵活性和开放性。

Databricks Lakehouse Platform 来自 Koalas、MLflow、Delta Lake 和 Apache Spark 的原始创建者。企业可以在一个平台上统一数据仓库和 AI 用例。统一的方法消除了传统上将 ML、数据科学、商业智能 (BI) 和分析分开的孤岛。大数据工具建立在开源和开放标准之上,以最大限度地提高灵活性。Databricks Lakehouse Platform 的通用数据治理、安全性和管理方法可帮助企业更快地进行创新并提高运营效率。

对于大数据存储工具的选择

大数据行业不断发展,并为众多面向业务的应用程序提供动力。例如,谷歌和 Facebook 等科技巨头利用大数据的潜力为用户提供有针对性的广告和内容。分析大数据的第一步是安全存储。文中仅作为参考,企业需找到针对自身业务,能满足自身需求的大数据存储解决方案。

责任编辑:华轩 来源: DOIT传媒

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK