36

MongoDB 推出 Atlas Data Lake 预览版本,可直接访问 Amazon S3

 5 years ago
source link: https://www.tuicool.com/articles/yQVbumz
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

近日, MongoDB 在 MongoDB World 上宣布了 MongoDB Atlas 家族的新成员——MongoDB Atlas Data Lake,目前已发布公开测试版本。MongoDB Atlas Data Lake 的出现将使得 MongoDB 可以应用于云大数据湖。随着企业在 Amazon S3 等云存储中积累的数据越来越多,他们对于如何有效处理这些数据的需求也越来越旺盛。

MongoDB Atlas Data Lake 可以使用 MongoDB 查询语言,该语言专为丰富、复杂的结构而构建,可以处理以 JSON、BSON、CSV、TSV、Avro 和 Parquet 格式存储的数据。数据按需分析,无需基础设施设置,无需耗时的转换、预处理或元数据管理。因为没有预先定义的架构,所以可以更快地处理数据。

作为 MongoDB Atlas 云数据平台中提供的按需服务,没有部署过程,只需要提供对 S3 存储桶的访问。用户可以使用与 MongoDB Atlas 操作集群相同的 UI 配置 Atlas Data Lake,通过一个简单的向导来配置权限,提供对 S3 存储桶的只读访问权限,将 S3 目录映射到数据库和集合,并使其做好运行查询的准备。

通过 MongoDB 查询语言,用户可以将一个技能集应用于数据湖和事务数据库。它不仅仅是与 Data Lake 一起使用的查询语言,而且也兼容 MongoDB 驱动程序、MongoDB Shell、MongoDB Compass 和 MongoDB BI Connector。这意味着使用 JavaScript、Perl、Python、C、C ++、Java、Ruby、Go、Scala、R 和许多其他语言编写的应用程序也可以使用 MongoDB 用户之前部署的驱动程序访问 Data Lake。数据科学家可以使用 R 驱动程序支持下的 R Studio 工具 或者 Python 驱动程序支持下的 Jupyter 笔记本来进行统计、机器学习和数据湖分析。

目前,MongoDB Atlas Data Lake 部署了多个计算节点来分析每个 S3 存储桶,并针对该存储桶的数据进行处理查询。这些节点并行工作,在桶区域中进行快速处理,能够最大限度地减少数据传输和相关成本。完成后,每个节点将其结果返回到中心节点,该节点根据需要对单独的结果进行排序、过滤和聚合为最终结果。

对于 Data Lake 用户,此过程完全透明,允许他们继续从工作中提取该数据的价值和洞察力。这意味着对应用于数据的并发查询没有限制,计算节点架构的未来增强也会对用户透明。

vMJvAvf.png!web MongoDB Atlas Data Lake 旨在通过用户已有的数据湖中获得最佳效果,包含分析数据、构建数据服务、提供机器学习和 AI 以及构建活动档案。

原文链接

https://www.mongodb.com/blog/post/mongodb-atlas-data-lake-debuts-at-mongodb-world


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK