LinkedIn大数据工程的升级

LinkedIn大数据工程的升级
在 LinkedIn 的早期阶段（2010 年代初），公司发展非常迅速。为了跟上这种增长，他们在分析堆栈中利用了几个第三方专有平台。
使用这些专有平台比拼凑现成的产品要快得多。
LinkedIn 依靠 Informatica 和 Appworx 进行ETL到使用 Teradata 构建的数据仓库。

这个堆栈为 LinkedIn 服务了 6 年，但它有一些缺点：

缺乏发展的自由——由于这个系统的封闭性，他们在创新的选择上受到限制。此外，与内部和开源系统的集成也是一个挑战。
扩展困难- 由于 Informatica/Appworx 许可证的限制，数据管道开发仅限于一个小型中央团队。这日益成为LinkedIn快速增长的瓶颈。

LinkedIn 的新业务分析技术堆栈
新的技术堆栈具有以下组件

Unified Metrics Pipeline - 开发人员提供 ETL 脚本来创建数据管道的统一平台。
Azkaban - 一个分布式工作流调度程序，用于管理 Hadoop 上的作业。
数据集读取器 - 数据集存储在 Hadoop 分布式文件系统上，可以通过多种方式读取。它们可以通过DALI读取，DALI是一种开发用于允许 LinkedIn 工程师读取数据而无需担心其存储介质、路径或格式的 API。它们可以通过各种仪表板和用于业务分析的临时查询来读取。

新生态系统的设计深受旧生态系统的影响，并解决了遗留技术堆栈的主要痛点。

数据民主化- Hadoop 生态系统支持 LinkedIn 的其他团队开发和采用数据。以前，由于专有平台的许可限制，只有中央团队可以在旧系统上构建数据管道。
通过开源项目实现技术开发的民主化——新技术堆栈的所有方面都可以通过开源或定制项目自由增强。
技术堆栈的统一——同时运行 2 个技术堆栈显示了维护冗余系统的复杂性和成本。统一技术可以大大提高效率。

Recommend

What I Saw Documenting an Insurrection

君官民之间的关系

用图片来提高机器翻译质量

See Inside New York's Nearly-Abandoned Stewart Airport; PLAY

Shallow Copy and Deep Copy

Show HN: Go Template Preview – Powered by WebAssembly

大西洋理事会：数字人民币处于全球更领先的地位

Hitchweb! Browser Extension🧩, Talk to people on same website 🤩

Here's how to watch the Xbox and Bethesda Games Showcase today

年轻人的"野性储蓄"，打开线上百亿新市场

About Joyk