大数据爱好者2017/10/10         
本文的题目都是大讲台老师收集的近两年spark面试真题,希望对准备参加spark面试的同学们有所帮助!
(一)对于Spark进行数据挖掘计算,你有什么看法?
Spark在1.3.0以后出现的DataFrame可以对结构化的数据进行类SQL语句的数据挖掘。
(二)Spark如何处理非结构化数据?
通过Scala的函数式编程进行基于RDD的非结构化数据处理。
(三)Spark性能优化主要有哪些手段?
1. 将默认调用的java序列化器改为kyro序列化器(减少序列化数据80%的空间占用;
2. 由于Spark1.6.0的统一内存管理模型,若算法的数据量大,而计算逻辑较为简单,可以增大内存管理中cache块的比例,如果是数据量小而算法逻辑复杂,可以适当减少cache快的比例;
3. 如果因对是集群CPU资源过分盈余,可以采用增加core的数目,但是core的数目增加到一定程度后,依旧无法完全利用CPU的计算资源,可以选择增加Executor的数目,通常环境下,一个Executor推荐设置5个Core的个数,超过5个推荐增加Executor的个数。
(四)简要描述Spark分布式集群搭建的步骤?
创建相关用户,获得文件权限,建立SSH免密码通信,下载各软件包,解压缩后配置环境变量,之后配置Hadoop配置文件(hdfs-site.xml,yarn资源管理器相关内容),Spark配置文件(集群的MasterIP,各节点的内存值)
本文的spark面试题难度都不高,对于测试结果不好的同学,请关注大讲台的spark培训课程,正是你所需的!
江左梅郎 2017/10/10
回复