大数据技术栈笔记 - Zeqiang Fang | 方泽强 - JOYK Joy of Geek, Geek News, Link all geek

今天参加了奇安信的线上测试，基于平时所学与近期调研笔记，对大数据的行业技术栈需求有了一定了解

Hbase Cell

HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。
开源项目，是横向扩展的。
HBase是一个数据模型，类似于谷歌的大表设计，可以提供快速随机访问海量结构化数据。
它利用了Hadoop的文件系统（HDFS）提供的容错能力
它是Hadoop的生态系统，提供对数据的随机实时读/写访问，是Hadoop文件系统的一部分

行式数据库列式数据库它适用于联机事务处理（OLTP）它适用于在线分析处理（OLAP）这样的数据库被设计为小数目的行和列面向列的数据库设计的巨大表

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

YARN的基本思想是将JobTracker的两个主要功能（资源管理和作业调度/监控）分离，主要方法是创建一个全局的ResourceManager（RM）和若干个针对应用程序的ApplicationMaster（AM）。

MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含了以下三层含义： 1. MapReduce是一个基于集群的高性能并行计算平台（Cluster Infrastructure）。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。 2. MapReduce是一个并行计算与运行软件框架（Software Framework）。 3. MapReduce是一个并行程序设计模型与方法（Programming Model & Methodology）。

Block VS Split

一个split不会包含零点几或者几点几个Block，一定是包含大于等于1个整数个Block
一个split不会包含两个File的Block,不会跨越File边界
split和Block的关系是一对多的关系
maptasks的个数最终决定于splits的长度

Spark HDFS
HDFS架构组成
TaskTracker
查准率 vs 查全率
MapReduce 考虑本地性
SQL语句

Order vs Group Where vs Having

Spark vs MapReduce 性能
边，度数，点的数量至少有几个

Green plum Oracle Hive MySQL

Spark Streaming
Spark context
Spark SQL 支持哪些格式数据

text json csv parquet

高阶回归过拟合问题

大数据技术栈笔记 - Zeqiang Fang | 方泽强

Hbase Cell

MapReduce

Block VS Split

Recommend

Linux进程间通信概览

在路上：南京-镇江-扬州

What is Game - An Inspiration from GMS Archetechture

🔥基于Python的CCF模拟題解析（持续更新）

2020年的新年碎碎念

如何进行高中学历清华认证

老哥们，js的回调函数怎么看出是同步的还是异步的？

再谈Go语言的交叉编译

删文机制的技术讨论

.mpipks-transcript 06. Non-equilibrium Criticality | 阿掖山：一个博客

About Joyk