专业题库:通信技术:大数据考试题库3

试题题干(必填) 试题类型(必填，题型请用下拉菜单实现）选项（用'|'隔开）答案（填空题用'|'隔开）(必填)

大数据驱动模式主要有哪些？单选数据驱动|业务驱动|数据和业务并行|以上都是 D

下列哪个程序通常与 NameNode 在同一个节点启动? 单选 MapTask|ReduceTask|ResourceManager|NodeManager C

哪种资源通常是集群的最主要瓶颈? 单选 CPU|网络|磁盘|内存 C

大数据的特点不包括下面哪一项? 单选巨大的数据量|多结构化数据|处理速度快|价值密度高 D

数据库的数据一般存放在? 单选 CPU|网络|磁盘|内存 C

下面哪个程序负责 HDFS 数据存储? 单选 NameNode|Datanode|secondaryNameNode|ResourceManager B

在定义Hive表时，必须指定的属性有? 单选表名|分区字段|location|表空间 A

下列选项中，不属于Hive支持的接口是? 单选 JDBC|CLI|HWI|Javascript D

Hive默认的元数据存储数据库是? 单选 Mysql|DB2|Debry|Oracle B

在Hive中建立数据库，实际上在哪里建立相应的目录？单选 HDFS|MapReduce|HBase|Mysql A

Hive中的SQL以什么字符结束? 单选 ,|;|.|、 B

Hive不适用于? 单选离线计算|海量数据计算|在线计算|数据仓库 C

Hive与传统数据仓库技术对比，最显著的特征是? 单选免费|水平易扩展|高性能|低延迟 B

Hive的计算引擎是? 单选 spark|innodb|mapreduce|hdfs C

HBase依赖什么提供消息通信机制? 单选 Zookeeper|Chubby|Socket|RPC A

HBase依赖什么提供强大的计算能力? 单选 Zookeeper|Chubby|Socket|MapReduce D

HBase依靠什么存储底层数据? 单选 Zookeeper|Chubby|Socket|HDFS D

Hive中的数据存储在（）。单选 HDFS|本地磁盘|Metastore|Hbase A

Spark streaming处理数据的基本单元是（）。单选 RDD|Dstream|Trident|Tuple B

关于Hive的外部表，描述错误的是（）。单选数据不会随表删除|通过location指定数据路径|元数据不会随表删除|支持的数据格式和普通表一样 C

HBase中获取单行数据的操作命令是？（）单选 select|get|read|cat B

Spark计算模型中作为数据处理单元的是? 单选 Split|RDD|Tuple|Partition B

和MapReduce相比较，Spark编程模型更加适合处理以下哪种计算模式? 单选迭代计算|批处理|流计算|高性能计算 A

Spark在以下哪一种模式下无法运行？单选本地模式|Apache Mesos|Hadoop 1.0|Hadoop 2.0 C

以下哪种数据库适合处理半结构化数据？单选 Oracle|MySQL|SQLServer|HBase D

以下哪种场景不适合当前的流计算引擎SparkStreaming进行处理？单选 Web应用用户点击行为实时统计|电子商务应用的实时推荐|大量文件的词频分析|数据从采集系统经过转换存入HDFS C

MapReduce程序中的Map任务主要用来执行以下哪种操作？单选数据提取|全局归并|数据传输|事务处理 A

以下哪个组件是HDFS用来进行目录结构和修改日志管理的组件？单选 ResourceManager|NodeManager|DataNode|NameNode D

在Spark中缓存数据时，如果希望在不同的应用程序间共享数据，缓存级别应该选择以下哪种？单选 MEMORY_ONLY|MEMORY_AND_DISK|OFF_HEAP|MEMORY_ONLY_2 C

分布式文件系统HDFS为了提供数据的可靠性。采用副本方式通过资源冗余保证数据可靠性，在常用的工程实践中，数据在分布式存储系统中保存时一共保存几份？单选 2|3|4|5 B

以下哪个组件是Spark中用来提供机器学习算法库的组件？单选 Hive|SparkSQL| Mllib|Mahout C

以下哪个组件是YARN用来进行资源管理和调度任务执行的组件？单选 ResourceManager|NodeManager|JobTracker|TaskTracker A

Flume可以用来对文件数据进行采集，以下哪个组件是Flume用来向目标系统进行数据写入的组件？单选 Master|Source|Channel|Sink D

MapReduce为了加速分析作业的运行，会在某个作业任务一直完成不了的时候，启动一个任务和原先任务一起运行，这两个任务谁先完成，就把对方任务停止掉，这种启动的任务在Hadoop中称为？单选分发任务|备份任务|加速任务|候选任务 B

使用Hive进行SQL分析时，以下哪个组件是Hive用来保存数据库、表模式等信息的？单选 Driver|Parser|Optimizer|Metastore D

Spark对数据进行分析变换时，可以对数据集合中的每一个元素进行一个操作，然后将结果集合生成，该操作是以下哪个？单选 flatmap|filte|map|reduce D

SparkSQL开发时使用以下哪一种数据模型对数据进行查询？单选 RDD|Dstream|DataFrame|Tuple C

Spark在处理海量数据时，有时会有数据倾斜发生，数据倾斜是指？单选某个key对应的元素个数特别多|某个key对应的值特别大|RDD的某个partition中的不同key的个数特别多|某个job的Task数量特别多 A

以下哪种方法可以用于从HDFS上读取文件，并创建RDD？单选 parallelize|textFile|makeRDD|hdfsFile B

Spark的算子通常可以分为shuffle类算子和map类算子，下列哪个算子不属于shuffle类算子？单选 groupByKey|aggregateByKey|map|reduceByKey C

以下哪种数据类型通常被用于Spark MLlib对分类问题进行数据训练和预测？单选 Vector|LabeledPoint|Tuple|List B

¹⁾
v1,v2) ⇒ v1+v2)|map(_.split(“,”