6

大数据技术栈笔记 - Zeqiang Fang | 方泽强

 3 years ago
source link: https://zeqiang.fun/post/notes/bigdatanote1/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

今天参加了奇安信的线上测试,基于平时所学与近期调研笔记,对大数据的行业技术栈需求有了一定了解

Hbase Cell

  • HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。
  • 开源项目,是横向扩展的。
  • HBase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数据。
  • 它利用了Hadoop的文件系统(HDFS)提供的容错能力
  • 它是Hadoop的生态系统,提供对数据的随机实时读/写访问,是Hadoop文件系统的一部分
行式数据库 列式数据库 它适用于联机事务处理(OLTP) 它适用于在线分析处理(OLAP) 这样的数据库被设计为小数目的行和列 面向列的数据库设计的巨大表

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。

MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。

MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义: 1. MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。 2. MapReduce是一个并行计算与运行软件框架(Software Framework)。 3. MapReduce是一个并行程序设计模型与方法(Programming Model & Methodology)。

Block VS Split

  1. 一个split不会包含零点几或者几点几个Block,一定是包含大于等于1个整数个Block
  2. 一个split不会包含两个File的Block,不会跨越File边界
  3. split和Block的关系是一对多的关系
  4. maptasks的个数最终决定于splits的长度
  • Spark HDFS

  • HDFS架构组成

  • TaskTracker

  • 查准率 vs 查全率

  • MapReduce 考虑本地性

  • SQL语句

Order vs Group Where vs Having

  • Spark vs MapReduce 性能

  • 边,度数,点的数量至少有几个

Green plum Oracle Hive MySQL

  • Spark Streaming

  • Spark context

  • Spark SQL 支持哪些格式数据

text json csv parquet

  • 高阶回归过拟合问题

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK