0

LinkedIn大数据工程的升级

 2 years ago
source link: https://www.jdon.com/61036
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

LinkedIn大数据工程的升级
在 LinkedIn 的早期阶段(2010 年代初),公司发展非常迅速。为了跟上这种增长,他们在分析堆栈中利用了几个第三方专有平台。
使用这些专有平台比拼凑现成的产品要快得多。
LinkedIn 依靠 Informatica 和 Appworx 进行ETL到使用 Teradata 构建的数据仓库。

这个堆栈为 LinkedIn 服务了 6 年,但它有一些缺点:

  • 缺乏发展的自由——由于这个系统的封闭性,他们在创新的选择上受到限制。此外,与内部和开源系统的集成也是一个挑战。
  • 扩展困难- 由于 Informatica/Appworx 许可证的限制,数据管道开发仅限于一个小型中央团队。这日益成为LinkedIn快速增长的瓶颈。

LinkedIn 的新业务分析技术堆栈
新的技术堆栈具有以下组件

  • Unified Metrics Pipeline - 开发人员提供 ETL 脚本来创建数据管道的统一平台。
  • Azkaban - 一个分布式工作流调度程序,用于管理 Hadoop 上的作业。
  • 数据集读取器 - 数据集存储在 Hadoop 分布式文件系统上,可以通过多种方式读取。它们可以通过DALI读取,DALI是一种开发用于允许 LinkedIn 工程师读取数据而无需担心其存储介质、路径或格式的 API。它们可以通过各种仪表板和用于业务分析的临时查询来读取。

新生态系统的设计深受旧生态系统的影响,并解决了遗留技术堆栈的主要痛点。

  • 数据民主化- Hadoop 生态系统支持 LinkedIn 的其他团队开发和采用数据。以前,由于专有平台的许可限制,只有中央团队可以在旧系统上构建数据管道。
  • 通过开源项目实现技术开发的民主化——新技术堆栈的所有方面都可以通过开源或定制项目自由增强。
  • 技术堆栈的统一——同时运行 2 个技术堆栈显示了维护冗余系统的复杂性和成本。统一技术可以大大提高效率。

 


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK