8

大数据之常见面试题

 2 years ago
source link: https://icocos.github.io/2020/04/04/%E5%A4%A7%E6%95%B0%E6%8D%AE%E4%B9%8B%E5%B8%B8%E8%A7%81%E9%9D%A2%E8%AF%95%E9%A2%98/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

大数据之常见面试题

发表于

2020-04-04

| 分类于 大数据

| 评论数: 0

| 阅读次数:

| 阅读次数:

本文字数: 3.1k

|

阅读时长 ≈ 3 分钟


大数据–面试题一览

[20180524]

  • 阐述HDFS生成文件的过程
  • Hadoop有哪些优化,调优点
  • 阐述对Hive分区的理解
  • Hive分桶
  • 用Spark干过什么
  • 你们公司生产的集群规模
  • 懂不懂CDH

[20180508] 七牛云面试题

  • hive和hdfs之间的联系
  • inode和文件描述符
  • linux指令如何创建文件
  • http中header中放入key value 有什么变化
  • 系统调用和库函数区别
  • http缓冲实现机智
  • session cookie 区别
  • 进程间通信方式
  • jsp本质
  • http请求状状态
  • get post put remove
  • 数据库join
  • 数据库引擎
  • hibernate和mybiters区别
  • jvm垃圾回收
  • hive和关系型数据库区别
  • hive实现原理
  • spark与mr的区别

[20180502] 二三四五面试题

  • 画图讲解Spark工作流程,以及在集群上和各个角色的对应关系
  • Spark Streaming程序代码更新后如何操作
  • 在一个电商网站中,设计一个订单ID生成方案
  • spark-submit如何引入外部jar包
  • Spark对于OOM从什么角度下手调整
  • org.apache.spark.SparkExectption:Task not serializable,这个错误是什么意思?如何解决?哪些场景会出现这错误?

[20180427] 面试题

  • 有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序
  • 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词

[20180426] 美图二面

  • ThriftServer的HA如何去实现,能说下实现的思路嘛
  • 说下Zookeeper的watch机制是如何实现的嘛?
  • 场景题:
    • 现在有1个client,2个server,当我动态加入一台机器,或者删除一台机器,或者某台机器宕机了,client该如何去感知到,说下实现思路(不使用Zookeeper)
    • 如何通信,说说具体实现

[20180425] 蚂蚁金服编程题

  • 编程题A:求一个整数的平方根,不保留小数。

  • 编程题B:

    • 1.年/月/日/xxx.jpg , 文件夹以 这个形式组织。
    • 2.新建文件夹,将所有jpg文件拷贝到该文件夹,更名为 年_月_日_xxx.jpg。
    • 3.监控文件夹,如果有增加的jpg文件,自动同步到新文件夹。
    • 4.jpg文件只增加不删除。

[20180424] 成都某公司面试题

  • 谈谈你对HDFS的了解
  • Hadoop2.0做了哪些改动
  • Spark与MR的区别在哪里
  • 知道除了Spark之外的大数据处理框架嘛
  • Spark shuffle,说说
  • StringBuilder与StringBuffer的区别
  • HashMap与Hashtable的区别
  • 二叉树的数据结构是什么样的
  • 数据库索引的实现原理
  • jvm垃圾收集器,挑一种讲讲

[20180423] 美图面试题

  • 为什么选择美图,你知道美图地点在哪里嘛
  • 介绍下你做的项目吧
  • 数据统一管理平台,我挺感兴趣的,你说说吧
  • 我大概知道是怎么回事了,java web这块你参与开发了吗
  • 你刚刚项目提到了元数据,你能说说hive的元数据管理嘛,对它了解嘛
  • 还是hive,你对hive有哪些原理性了解呢
  • 知道AST、operator tree这些长什么样吗
  • 那你的hive转mr过程是怎么了解的呢?
  • 除了谓词下推,还能说说其它的优化嘛?别说数据倾斜的调优
  • jvm了解不,说下垃圾收集算法
  • 平常用java和scala语言哪个多点
  • 如果我现在要使用map集合,你觉得哪种适合多线程情况下进行访问
  • 如何去监控线程
  • Spark 出现OOM,你觉得该怎么进行调优呢?不去动jvm的参数
  • 你觉得join该怎么优化
  • 你对未来的规划是什么?(五年内)
  • 你也就是走技术路线咯

[20180421] 北京3+家面试题

hadoop面试:

1、hadoop集群、namenode如何做到数据同步?
2、hdfs副本存放策略
3、HA如何在挂掉一台namenode节点的状态下,自动切换到另一台?
4、mapreduce shuffle过程
5、mapreduce优化

flume面试:

1、你能二次源码修改支持parquent格式吗?

sqoop面试:

1、抽取某个数据库下的某张表+条件 怎么抽取?
2、sqoop增量导入

hbase面试:

1、rowkey如何设计
2、hbase热点问题
3、协处理器
4、hbase优化
5、hbase的二级索引

hive面试:

1、数据倾斜
2、hive能加索引吗?

spark面试:

1、rdd dataset dataframe 概念
2、mapflat
3、spark资源分配

kafka面试:

1、怎么保证数据零丢失?和spark streaming结合说说看?
2、怎么解决数据重复问题?
3、某个kafka节点挂掉对生产和消费有影响吗?
4、生产大于消费 lag产生大量的滞后怎么解决?

数据库面试:

1、btree
2、索引
3、拉链表

shell面试:

1、如何查找在Linux目录下的某个文本里的包含相关内容的操作?

[20180420] 蚂蚁金服面试题

  • 小文件的合并
  • MR与Spark的区别
  • 关注哪些名人的博客
  • 对大数据领域有什么自己的见解
  • 平常怎么学习大数据的
  • StringBuilder与StringBuffer的区别
  • HashMap与Hashtable的区别
  • 谈谈你对树的理解
  • 数据库索引的实现
  • jvm的内存模型
  • jvm的垃圾收集器
  • jvm的垃圾收集算法
  • HDFS架构
  • HDFS读写流程
  • Hadoop3.0做了哪些改进
  • 谈谈YARN
  • 为什么项目选择使用Spark,你觉得Spark的优点在哪里
  • 了解Flink与Storm嘛,他们与Spark Streaming的区别在哪里
  • 1TB文件,取重复的词,top5指定的资源的场景下,如何快速统计出来

[20180419] 网易大数据面试题

  • Spark哪部分用得好,如何调优
  • Java哪部分了解比较好
  • 聊聊并发,并发实现方法,volatile关键字说说
  • HashMap的底层原理
  • 为什么要重写hashcode和equals
  • 说说jvm
  • 各个垃圾收集器运用在什么情形
  • jvm调优
  • 为什么考虑转行呢?是因为原专业不好就业吗?

[20180418] 数据挖掘面试题

  • Java字符串拼接StringBuffer和+=区别
  • Scala map和foreach区别
  • Spark groupByKey和reduceByKey区别
  • Spark将数据写MySQL要注意什么
  • Spark repartition和coalesce函数的区别
  • 梯度下降、随机梯度下降、mini batch 梯度下降的区别
  • SVM原理
  • SVM中为什么要转成对偶问题
  • SVM在分类时怎么选择合适的核函数
  • 特征共线性问题
  • Hive外表和内表的区别
  • 求解字符串的所有的回文子串
  • 贝叶斯定理
  • 推荐系统 svd knn

[20180417]

  • 最近一个项目的架构,你所负责的模块
  • 谈谈你对Spark的理解
  • 在这个项目中,你觉得你做的模板中出彩的地方与哪些
  • Spark作业提交的流程
  • 在工作中使用Spark遇到了哪些问题,如何解决的,请举3个例子
  • 谈谈你对JVM的了解
坚持原创技术分享,您的支持将鼓励我继续创作!

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK