HDFS、MapReduce、Spark、Hadoop 常见面试题及答案
- 关于HDFS的文件写入,正确的是() A、支持用户在文件任意位置的修改操作 B、复制的文件块默认存在同一个机架上 C、默认将文件复制为三份进行存放 D、支持多用户对同一文件的并行写操作
答案:C、默认将文件复制为三份进行存放
- 以下属于宽依赖的操作是() A、sample B、reduceByKey C、map D、flatMap
答案:C、map
- Scala属于() A、函数式编程语言 B、汇编语言 C、机器语言 D、多范式编程语言
答案:A、函数式编程语言
- Hadoop集群中最主要瓶颈是() A、CPU B、内存 C、网络 D、磁盘I/O
答案:C、网络
- 下列通常与NameNode在同一个节点启动的是() A、SecondaryNameNode B、JobTracker C、DataNode D、TaskTracker
答案:A、SecondaryNameNode
- 以下不属于Hadoop可以运行的模式是() A、单机(本地)模式 B、互联模式 C、分布式模式 D、伪分布式模式
答案:B、互联模式
- Hadoop生态中可以被Spark替代的组件是() A、HBase B、Yarn C、MapReduce D、HDFS
答案:C、MapReduce
- 关于Spark RDD的描述,不正确的是() A、RDD是可读可写的数据 B、RDD是Spark中最基本的数据抽象 C、RDD中的分区是可以改变的 D、RDD的数据只能存储在内存中
答案:A、RDD是可读可写的数据
- 以下关于MapReduce的描述,不正确的是() A、MapReduce来源于Google B、MapReduce隐藏了并行计算的细节,方便使用 C、MapReduce是一种计算框架 D、MapReduce程序只能用Java语言编写
答案:D、MapReduce程序只能用Java语言编写
- Spark可以访问的数据源包括() A、Cassandra B、Hive C、以上都是 D、HDFS
答案:C、以上都是
- HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性等特征,适合的文件任务是() A、一次写入,多次读 B、多次写入,少次读 C、多次写入,多次读 D、一次写入,少次读
答案:A、一次写入,多次读
- HBase的强大的计算能力依赖于() A、RPC B、MapReduce C、Zookeeper D、Chubby
答案:C、Zookeeper
- 关于SecondNameNode的说法,以下正确的是() A、应与NameNode部署在同一个节点上 B、它是NameNode的热备 C、帮助NameNode合并编辑日志,减少NameNode的启动时间 D、对内存没有要求
答案:C、帮助NameNode合并编辑日志,减少NameNode的启动时间
- 下可以将一个数据帧转换为另一个数据帧的是() A、DataFrame B、Modify C、Estimator D、Transformer
答案:C、Estimator
- 大数据技术面临的问题是() A、以上都是 B、大数据数字化 C、大数据终端使用 D、大数据产品
答案:A、以上都是
- HBase的存储底层数据依赖于() A、Memory B、MapReduce C、HDFS D、Hadoop
答案:C、HDFS
- 配置Hadoop时,JAVA_HOME包含在配置文件() A、hadoop-default.xml B、hadoop-env.sh C、hadoop-site.xml D、configuration.xsl
答案:B、hadoop-env.sh
- 关于Hadoop单机模式和伪分布式模式的说法,正确的是() A、单机模式不使用HDFS,但加载守护进程 B、两者都不与守护进程交互 C、后者比前者增加了HDFS输入输出以及可检查内存使用情况 D、两者都是守护进程,且运行在同一台机器上
答案:C、后者比前者增加了HDFS输入输出以及可检查内存使用情况
- 以下属于窄依赖的操作是() A、filter B、sort C、join D、group
答案:A、filter
- 以下不属于Spark RDD的特点的是() A、可序列化 B、可修改 C、可分区 D、可持久化
答案:B、可修改
原文地址: http://www.cveoy.top/t/topic/4vp 著作权归作者所有。请勿转载和采集!