试题题干(必填) 试题类型(必填,题型请用下拉菜单实现) 选项(用'|'隔开) 答案(填空题用'|'隔开)(必填)
大数据驱动模式主要有哪些? 单选 数据驱动|业务驱动|数据和业务并行|以上都是 D
下列哪个程序通常与 NameNode 在同一个节点启动? 单选 MapTask|ReduceTask|ResourceManager|NodeManager C
哪种资源通常是集群的最主要瓶颈? 单选 CPU|网络|磁盘|内存 C
大数据的特点不包括下面哪一项? 单选 巨大的数据量|多结构化数据|处理速度快|价值密度高 D
数据库的数据一般存放在? 单选 CPU|网络|磁盘|内存 C
下面哪个程序负责 HDFS 数据存储? 单选 NameNode|Datanode|secondaryNameNode|ResourceManager B
在定义Hive表时,必须指定的属性有? 单选 表名|分区字段|location|表空间 A
下列选项中,不属于Hive支持的接口是? 单选 JDBC|CLI|HWI|Javascript D
Hive默认的元数据存储数据库是? 单选 Mysql|DB2|Debry|Oracle B
在Hive中建立数据库,实际上在哪里建立相应的目录? 单选 HDFS|MapReduce|HBase|Mysql A
Hive中的SQL以什么字符结束? 单选 ,|;|.|、 B
Hive不适用于? 单选 离线计算|海量数据计算|在线计算|数据仓库 C
Hive与传统数据仓库技术对比,最显著的特征是? 单选 免费|水平易扩展|高性能|低延迟 B
Hive的计算引擎是? 单选 spark|innodb|mapreduce|hdfs C
HBase依赖什么提供消息通信机制? 单选 Zookeeper|Chubby|Socket|RPC A
HBase依赖什么提供强大的计算能力? 单选 Zookeeper|Chubby|Socket|MapReduce D
HBase依靠什么存储底层数据? 单选 Zookeeper|Chubby|Socket|HDFS D
Hive中的数据存储在()。 单选 HDFS|本地磁盘|Metastore|Hbase A
Spark streaming处理数据的基本单元是()。 单选 RDD|Dstream|Trident|Tuple B
关于Hive的外部表,描述错误的是()。 单选 数据不会随表删除|通过location指定数据路径|元数据不会随表删除|支持的数据格式和普通表一样 C
HBase中获取单行数据的操作命令是?() 单选 select|get|read|cat B
Spark计算模型中作为数据处理单元的是? 单选 Split|RDD|Tuple|Partition B
和MapReduce相比较,Spark编程模型更加适合处理以下哪种计算模式? 单选 迭代计算|批处理|流计算|高性能计算 A
Spark在以下哪一种模式下无法运行? 单选 本地模式|Apache Mesos|Hadoop 1.0|Hadoop 2.0 C
以下哪种数据库适合处理半结构化数据? 单选 Oracle|MySQL|SQLServer|HBase D
以下哪种场景不适合当前的流计算引擎SparkStreaming进行处理? 单选 Web应用用户点击行为实时统计|电子商务应用的实时推荐|大量文件的词频分析|数据从采集系统经过转换存入HDFS C
MapReduce程序中的Map任务主要用来执行以下哪种操作? 单选 数据提取|全局归并|数据传输|事务处理 A
以下哪个组件是HDFS用来进行目录结构和修改日志管理的组件? 单选 ResourceManager|NodeManager|DataNode|NameNode D
在Spark中缓存数据时,如果希望在不同的应用程序间共享数据,缓存级别应该选择以下哪种? 单选 MEMORY_ONLY|MEMORY_AND_DISK|OFF_HEAP|MEMORY_ONLY_2 C
分布式文件系统HDFS为了提供数据的可靠性。采用副本方式通过资源冗余保证数据可靠性,在常用的工程实践中,数据在分布式存储系统中保存时一共保存几份? 单选 2|3|4|5 B
以下哪个组件是Spark中用来提供机器学习算法库的组件? 单选 Hive|SparkSQL| Mllib|Mahout C
以下哪个组件是YARN用来进行资源管理和调度任务执行的组件? 单选 ResourceManager|NodeManager|JobTracker|TaskTracker A
Flume可以用来对文件数据进行采集,以下哪个组件是Flume用来向目标系统进行数据写入的组件? 单选 Master|Source|Channel|Sink D
MapReduce为了加速分析作业的运行,会在某个作业任务一直完成不了的时候,启动一个任务和原先任务一起运行,这两个任务谁先完成,就把对方任务停止掉,这种启动的任务在Hadoop中称为? 单选 分发任务|备份任务|加速任务|候选任务 B
使用Hive进行SQL分析时,以下哪个组件是Hive用来保存数据库、表模式等信息的? 单选 Driver|Parser|Optimizer|Metastore D
Spark对数据进行分析变换时,可以对数据集合中的每一个元素进行一个操作,然后将结果集合生成,该操作是以下哪个? 单选 flatmap|filte|map|reduce D
SparkSQL开发时使用以下哪一种数据模型对数据进行查询? 单选 RDD|Dstream|DataFrame|Tuple C
Spark在处理海量数据时,有时会有数据倾斜发生,数据倾斜是指? 单选 某个key对应的元素个数特别多|某个key对应的值特别大|RDD的某个partition中的不同key的个数特别多|某个job的Task数量特别多 A
以下哪种方法可以用于从HDFS上读取文件,并创建RDD? 单选 parallelize|textFile|makeRDD|hdfsFile B
Spark的算子通常可以分为shuffle类算子和map类算子,下列哪个算子不属于shuffle类算子? 单选 groupByKey|aggregateByKey|map|reduceByKey C
以下哪种数据类型通常被用于Spark MLlib对分类问题进行数据训练和预测? 单选 Vector|LabeledPoint|Tuple|List B
下列哪种不是Python的注释方法? 单选 #…|…|'…'|'…
' B
一般建议使用Python哪个版本作为开发环境?() 单选 Python 2.5.*|Python 2.6.*|Python 2.7.*|Python 3.* D
print(100 - 25 * 3 % 4) 应该输出什么?( ) 单选 1|97|25|0 B
哪种函式参数定义非法?() 单选 def myfunc(*args):|def myfunc(arg1=1):|def myfunc(*args, a=1):|def myfunc(a=1, **args): C
spark的master和worker通过什么方式进行通信的 单选 http|nio|netty|Akka D
一个运行健康的有7个节点的ZooKeeper集群有几个leader 单选 1|2|3|4 A
以下哪句代表在Hive库中查询表test中的id字段 单选 “select id from test;|
select id from table test;|
show tables;|
show databases;” A
以下哪句属于Hive建表正确语法的语句 单选 “create database test (id int);|
create table test (id int);|
new table test (id int);|
create view as select id from test;” B
以下代表Hive库选择某个数据库的语句是 单选 “create table test (id int);|
create database test;|
use database test_db;|
create view as select * from test;” C
以下关于ZooKeeper的描述正确的是 单选 “ZooKeeper是分布式查询组件|
ZooKeeper是分布式计算组件|
ZooKeeper是分布式存储组件|
ZooKeeper主要用于同步服务,配置维护和命名服务等分布式应用” D
分布式文件系统都在朝云方向发展,()不属于分布式文件系统? 单选 GPFS|NFS|OceanStor 9000|GlusterFS、Ceph B
MapReduce通常把输入文件按照()MB来划分 单选 16|32|64|128 C
Mapreduce适用于() 单选 “任意应用程序|
任意可在windows servet2008上运行的程序|
可以串行处理的应用程序|
可以并行处理的应用程序” D
在Bigtable中,()主要用来存储子表数据以及一些日志文件 单选 GFS|Chubby|SSTable|MapReduce A
()是Google的分布式数据存储于管理系统 单选 GFS|MapReduce|Chubby|Bigtable D
YARN代表什么?( ) 单选 “Yahoo的另一个资源名称|
另一个资源协商管理框架|
Yahoo的存档资源名称|
另一种资源需要” B
哪个程序负责MapReduce任务调度?( ) 单选 namenode|JobTracker|DataNode|TaskTracker B
Hive中的表模式(Schema):( )? 单选 “作为元数据存储在NameNode里面|
一起存储在HDFS数据|
存储在metastore元数据|
存放在Zookeeper里面” C
关于HDFS的文件写入,正确的是? 单选 “支持多用户对同一文件的写操作|
用户可以在文件任意位置进行修改|
默认将文件块复制成三份存放|
复制的文件块默认都存在同一机架上” C
下面哪一个不是HDFS Daemon? 单选 “Job Tracker|
Name Node|
Secondary Name Node|
Data Node” A
下面哪一个不是MapReduce Daemon? 单选 “Job Tracker|
Name Node|
Task Tracker|
Data Node” B
Mapper产生的中间key-value对会被( )? 单选 “写入HDFS中|
写入本地磁盘|
缓存在内存中,定期写入HDFS|
缓存在内存中,定期写入本地磁盘” D
Hadoop配置文件“slaves”设定了在哪台主机上运行( )? 单选 “Task Tracker|
Job Tracker|
Secondary Name Node|
Name Node” A
以下四个Hadoop预定义的Mapper实现类的描述错误的是? 单选 “IdentityMapper<K, V>实现Mapper<K, V, K, V>,将输入直接映射到输出|
InverseMapper<K, V>实现Mapper<K, V, K, V>,反转键/值对|
RegexMapper<K>实现Mapper<K, Text, Text, LongWritable>,为每个常规表达式的匹配项生成一个(match, 1)对|
TokenCountMapper<K>实现Mapper<K, Text, Text, LongWritable>,当输入的值为分词时,生成(taken, 1)对” B
关于MapReduce框架中一个作业的reduce任务的数目,下列说法正确的是? 单选 “是分块总数目的一半|
由自定义的Partitioner来确定|
由MapReduce随机确定其数目|
可以由用户来自定义,通过JobConf.setNumReducerTask(int)来设定一个作业中的任务数目” D
下列哪个表达式在Python中是非法的?() 单选 x = y = z = 1|x = (y = z + 1)|x, y = y, x|x += y B
下列哪种类型是Python的映射类型?() 单选 str|list|tuple|dict D
“下列代码:a = 'a'
print(a > 'b' or 'c'),运行结果是()” 单选 a|b|c|True C
关于大数据的理念的描述,以下哪些不正确 单选 “相关性比因果更重要|
要效率也要绝对精准|
大数据的核心价值是预测|
遵从隐私和法律是大数据存在的风险
” B
以下哪些域不属于运营商大数据主要分布区域 单选 B域|O域|M域|R域 D
以下哪些不是运营商大数据应用痛点? 单选 价值呈现:大数据应用价值呈现和创新不足|应用建设:周期长、门槛高、多冗余、体验差|组织流程:应用跨部门,缺乏流程贯串和使能业务生产|用户数量:用户数量不足以支撑大数据应用 D
哪种资源通常是集群的最主要瓶颈? 单选 “CPU|
网络|
磁盘IO|
内存
” C
下列不属于常用的数据结构类型是? 单选 “结构化数据|
无结构化数据|
半结构数据
” C
Pig不支持下述哪种数据类型? 单选 Bytearray|Datetime|Long|Chararray B
Hive查询语言和SQL的一个不同之处在于( )操作? 单选 Join|Group By|Partition|Union C
Hadoop中,Reducer的三个阶段是? 单选 “Shuffle – Sort – Reduce|
Sort – Shuffle – Recude|
Reduce – Shuffle – Sort|
Shuffle – Reduce – Sort” A
Spark的四大组件,下面哪个不是? 单选 SparkStreaming|MlLib|GraphX|HDFS D
下面哪个不是RDD的特点? 单选 可分区|可序列化|可修改|可持久化 C
Spark支持的分布式部署方式中,哪个是错误的? 单选 Standalone|Spark on mesos|Spark on yarn|Spark on local D
在Spark中,Stage的Task数量由什么决定? 单选 Partition|Job|Stage|TaskScheduler A
在Spark中下面哪个操作是窄依赖? 单选 join|filter|group|sort B
在Spark中,下面哪个操作肯定是宽依赖? 单选 map|flatMap|reduceByKey|sample C
RDD的默认存储级别是? 单选 MEMORY_ONLY|MEMORY_ONLY_SER|MEMORY_AND_DISK|MEMORY_AND_DISK_SER A
在Spark中,下列属于转换算子的是? 单选 count|foreach|map|collect C
关于MapReduce的说法,错误的是? 单选 拥有可扩展性|拥有可靠性和可用性|支持分布式计算|处理数据是低延时 D
Task 运行在哪个节点上 ? 单选 Driver program|Spark master|Worker node|Cluster manager C
Spark Job默认的调度模式是? 单选 FIFO|FAIR|无|运行时指定 A
RDD中的哪个算子会触发执行,向Spark引擎提交,生成一个job? 单选 创建|转换|控制|执行 D
Sqoop依赖什么提供强大的计算能力? 单选 Zookeeper|Chubby|Socket|MapReduce D
Spark计算模型数据存放在内存中,其容错机制基于? 单选 recompute机制|checkpoint机制|distribution机制|partition机制 B
以下哪个进程负责数据存储 单选 NameNode|Jobtracker|Datanode|secondaryNameNode C
以下哪一项通常是集群的瓶颈 单选 CPU|网络|磁盘IO|内存 C
下列关于Hadoop API的观点错误的是 单选 Hadoop的文件API不是通用的,只用于HDFS文件系统|Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的|FileStatus对象存储文件和目录的元数据|FSDataInputStream是java.io.DataInputStream的子类 A
由不同方式提交的配置参数,优先级最高的是 单选 SparkConf对象设置的参数|spark-submit提交程序时设置的参数|spark-shell启动REPL时提交的参数|spark-defaults.conf文件中的配置 A
spark 中用来进行图计算的组件是 单选 spark mllib|spark streaming|spark-sql|GraphX D
以下关于Docker的描述哪些是不正确的 单选 Docker镜像是Docker容器的源代码,Docker镜像用于创建容器|Docker容器包括应用程序及其所有依赖项,作为操作系统的独立进程运行|容器的启动需要引导操作系统内核 C
以下哪一个命令是查询docker容器进程的命令 单选 docker top id|docker stats id|docker inspect id A
现在项目内需要在docker各容器之间做大量的数据交换,需要使用以下哪个网络配置 单选 overlay|host|bridge|container A
以下哪一个是对vmware虚拟机的最佳描述 单选 执行虚拟化软件测试程序的物理机|通过软件实施的计算机,可以像物理机一样执行程序|一种旨在提供网络故障切换和故障恢复功能的计算机工具|一种软件计算机,其中封装了物理硬件 B
以下哪个组件可以让用户手动将正在运行的虚拟机从一台主机上迁移到另外一台主机上 单选 VMware VCenter|Vmware DRS|Vmware HA|Vmware Vmotion B
以下哪个组件可以作为所有虚拟计算资源的中心控制点 单选 VMware ESX|VMware ESXi|VMware Vcenter|VMware vSphere Hypervisor C
哪个产品在一组硬件资源中以动态方式分配和平衡计算能力,从而确保硬件资源的灵活性和高效利用率 单选 VMware VCenter|Vmware DRS|Vmware HA|Vmware Vmotion C
elasticsearch中,以下哪种查询是精准查询 单选 regexp|wildcard|multi_match|term D
elasticsearch中,以下哪种数据类型是不支持的 单选 date|varchar|boolean|integer B
以下关于neo4j特点描述错误的是 单选 完整的ACID支持|高可用性|难以扩展到上亿级别的节点与关系|可通过遍历工具高速检索数据 C
以下关于neo4j HA相关描述错误的是 单选 容错数据库架构 保存多个数据副本|即使硬件故障,也能保证可读写|Neo4j HA模式总有单个master,零个或多个slave|水平方向扩展以写为主架构 写操作负载均衡。 D
以下关于neo4j中关系的描述错误的是 单选 一个节点不可以有关系是指向自己的|neo4j CQL中使用→(箭头标记)标记两个节点间的关系|一个关系连接两个节点,必须有一个开始节点和结束节点|neo4j中关系分为两类,单向关系和双向关系 A
以下CQL语句依次执行,执行过程中会出现错误的是 单选 CREATE (p1:Profile1)-[r1:LIKES]→(p2:Profile2)|MATCH p=()-[r:LIKES]→() RETURN p|CREATE (m:Movie:Cinema:Film:Picture)|MATCH (p1:Profile1)-[r:LIKES]→() Delete p1 D
下列不属于neo4j CQL基本指令的是 单选 MATCH|UPDATE|WHERE|REMOVE B
HDFS 中的 block 默认保存几份? 单选 0|1|2|3 D
下面哪个程序负责 HDFS 数据存储 单选 NameNode|DataNode|SecondaryNameNode|JobTracker B
下面与HDFS类似的框架是 单选 GFS|FAT32|EXT3|NTFS A
下列哪个程序通常与 NameNode 在一个节点启动? 单选 SecondaryNameNode|DataNode|JobTracker|TaskTracker C
HBase依靠__存储底层数据 单选 HDFS|Memory|Hadoop|Spark A
DACP系统的开发平台是 单选 PaaS平台|数据治理平台|数据字典平台|大数据模型平台 A
hive使用beeline直接提交sql的参数为 单选 beeline -d|beeline -e|beeline -s|beeline -h B
Oracle中表示'2019-10-10 16:30:25'日期格式的正确表达式为 单选 yyyy-mm-dd HH:MM:ss|yyyy-MM-dd HH:mm:ss|yyyy-mm-dd HH24:MM:ss|yyyy-MM-dd HH24:mi:ss D
以下哪些语句的结果能看到hive表被创建的具体时间 单选 show partitions table_name|hadoop fs -ls table_name_hdfs_path|desc formatted table_name|select * from table_name C
hive中以下哪种连接可以直接有效的代替IN/EXSISTS逻辑 单选 inner join|cross join|left semi join|full join C
hive原生的字符编码采用的是 单选 GBK|utf-8|utf-16LE|ANSI B
oracle 12c中不包含以下哪个函数 单选 wm_concat|listagg|trim|rpad A
DACP中依赖配置中支持以下哪些依赖模式 多选 SQL依赖|平台依赖|任务依赖|时间依赖 ABCD
DACP团队中开发人员的角色含以下哪些权限 多选 调度线上作业的权限|变更程序与模型的权限|查看团队的资源监控权限|数据交换权限 BCD
以下哪种情况属于不规范模型 多选 已发布无实例|DACP未纳管|失效|新建未发布 AB
关于大数据哪些描述是正确的? 多选 大数据就是云计算|人工智能使能大数据场景应用智能化|大数据必须基于云平台|大数据与云平台融合是发展趋势 BD
关于Hive和Hadoop其他组件的关系,描述正确的是? 多选 Hive最终将数据存储在HDFS中|HiveSQL其本质是执行的MapReduce任务|Hive是Hadoop平台的数据仓库工具 |Hive对HBase有强依赖 ABC
Hadoop fs中的-get和-put命令操作对象是? 多选 文件|目录|操作系统|两者都不是 AB
大数据的基本特征主要有4个,简称4V,包括如下哪些? 多选 Volume|Variety|Velocity|Vaild ABC
下面对HBase的描述哪些是正确的? 多选 不是开源|面向列|分布式|是一种NoSQL数据库 BCD
MapReduce与HBase的关系,哪些描述是正确的? 多选 两者不可缺少,MapReduce是HBase可以正常运行的保证|两者不是强关联关系,没有MapReduce,HBase可以正常运行|MapReduce可以直接访问HBase|它们之间没有任何关系 BC
关于Hive的运行原理,下面描述正确的是? 多选 所有HQL都会转化为MapReduce任务执行|DDL语句不提交任务到MapReduce,而是直接操作元数据|对于select count(*) from table操作,一定会启动reduce任务|对于selece * from table语句不会启MapReduce BCD
Hive加载数据的类型有哪些? 多选 本地文件系统|RDBMS数据|HDFS|Socket AC
Hive数据表插入数据时,insert xxx table……,xxx中可使用哪些关键字? 多选 into|overwrite|append|all AB
以下是Hive导出数据的方式是? 多选 insert overwrite local directory|insert overwrite directory|hive -e “select * from xxx;” > /home/data|export ABCD
Hive中,自定义函数的类型有? 多选 UDF|UDAF|UDTF|UDBF ABC
以下是Nosql数据库的是? 多选 HBase|MongoDB|Redis|Mysql ABC
Redis持久化数据的方式有哪些? 多选 AOF|RDB|DUMP|Cache AB
Flume组成包括哪些? 多选 Source|Channel|Sink|Blot ABC
Sqoop的作用有哪些? 多选 将RDBMS数据导出到HDFS|将HDFS数据导出到RDBMS|将RDBMS数据导出到Hive|将RDBMS数据导出到Redis ABC
哪些操作可以创建DataFrame?() 多选 textFile|createDataFrame|read.table|filter BC
关于Spark,描述正确的是?() 多选 速度比Mapreduce快|可以支持C++开发|take操作会得到新的RDD|RDD是不可变的 AD
下面对HBase的描述哪些是正确的?() 多选 依赖于MapReduce|是面向列的|是分布式的|是一种NoSQL数据库 BCD
下面对Spark Streaming的描述哪些是正确的?() 多选 流处理框架|开发基本单位是RDD|支持ReduceByKey算子|可以接收kafka的消息数据 ACD
关于Spark的map操作,描述正确的是?() 多选 会转换得到新的RDD|输出和输入元素数量一致|支持匿名参数写法|可以完成排序操作 ABC
以下spark语法正确的是?() 多选 map(x ⇒ (x(0), x(1),x(2))).reduceByKey1)|createDataFrame(rdd).write.table(“table”)|textFile(“testfile”).show(4) BC
以下Flume配置语法正确的是?() 多选 agent.sources.channal.type = spooldir|agent.channels.ch1.type = memory|agent.sinks.sink.fileType = DataStream|agent.sources.source1.channel = memory-channel AB
以下Hive 查询语法正确的是?() 多选 select current_date;|describe formatted table;|select name,type,count(1) from table group by name;|select name from table order by type; BD
spark-shell启动时会发生什么?() 多选 创建SparkContext对象sc|创建StreamingContext对象ssc|创建SparkSession对象spark|创建初始的RDD AC
下列描述正确的是()。 多选 通过row format textFile来指定Hive表格式|broker服务的默认端口是9092|DataFrame的底层是RDD|Hive默认文本数据的字段分隔符是逗号 BC
主流的大数据计算模型通常有三种,以下哪三种是属于常见的大数据计算分析模型 多选 批处理计算|高性能计算|流处理计算|交互处理计算 ABD
大数据与传统的数据管理分析有所区别,以下哪几点属于大数据通常具备的主要特征? 多选 数据容量大|数据产生速度快|数据类型多|数据处理复杂 ABC
SparkSQL和Hive类似,也可以对海量数据进行SQL的分析和查询,SparkSQL支持多种数据格式,以下哪些数据格式是SparkSQL支持的? 多选 Json文件|Parquet文件|RDD|Hive表 ABCD
大数据分布式文件系统HDFS的名字节点上保存的主要内容有以下哪些? 多选 MapReduce作业信息|Hadoop集群资源使用情况|fsimage|edits log CD
Spark对RDD的操作分为Transformation和Action,下列哪些操作属于Action操作? 多选 reduce|reduceByKey|map|saveAsTextFile AD
Hadoop YARN用来对大数据分析作业进行调度和管理,以下哪些调度策略是YARN常用的? 多选 FIFOScheduler|CapacityScheduler|FairScheduler|PriorityScheduler BC
Spark MLlib支持对常用的机器学习算法进行使用,以下哪些算法是Spark MLlib库所支持的? 多选 深度学习卷积神经网络|决策树|线性回归|kmeans聚类 BCD
针对set,以下哪句是正确的?( ) 多选 元素可以重复|可以存储任意类型的元素|元素不可以重复|两个set可以做数学意义上的交集、并集等操作。 CD
以下正则表达式中,匹配正确的是? ( ) 多选 00\d'可以匹配'007'|'00\d'可以匹配'00A'|'\d\d\d'可以匹配'010'|\w\w\d'可以匹配'py3' ACD
以下哪些属于Python 3的内置函数?( ) 多选 any()|all()|dir()|input() ABCD
以下哪些是Python的保留字符?( ) 多选 finally|or|abs|from ABD
下列标识符中哪些是不合法的?() 多选 i’m|_|3Q|for ACD
下列哪些是Python元组的合法定义方式? 多选 (1)|(1, )|(1, 2)|(1, 2, (3, 4)) BCD
Spark中有几种部署模式? 多选 本地模式|standalone模式|spark on yarn模式|spark on mesos模式 ABCD
Spark为什么比MapReduce快? 多选 基于内存计算,减少低效的磁盘交互|高效的调度算法,基于DAG|在一个Stage中,采用pipeline计算模式|服务器配置更高 ABC
以下哪些属于Spark组件? 多选 master:管理集群和节点,不参与计算|worker:计算节点,进程本身不参与计算,和master汇报|Driver:运行程序的main方法,创建spark context对象|client:用户提交程序的入口 ABCD
RDD的弹性表现在哪几点? 多选 自动的进行内存和磁盘的存储切换|基于Lingage的高效容错|task如果失败会自动进行特定次数的重试|stage如果失败会自动进行特定次数的重试,而且只会计算失败的分区 ABCD
Spark支持的计算模型有? 多选 批处理|流计算|图计算|交互查询 ABCD
Spark程序支持哪些语言开发? 多选 Scala|Java|Python|PHP ABC
下列哪些属于Spark缓存的算子? 多选 checkpoint|persist|cache|memory BC
数据按结构划分,可分为? 多选 结构化|半结构化|非结构化|连续与离散化 ABC
Spark有哪两种算子? 多选 Transformation(转化)算子|Action(执行)算子|闭包算子|内嵌算子 AB
RDD的特征有? 多选 只读|分区|分布式|容错 ABCD
ETL是指什么? 多选 数据抽取|数据转换|数据加载|数据存储 ABC
下面哪个是Hadoop的运行模式 多选 单机版|伪分布式|分布式|跨集群分布式 ABC
下列哪项可以作为Hadoop集群的管理 多选 Puppet|Pdsh|Cloudera Manager|Zookeeper ABD
Hbase的描述有哪些是正确的 多选 不是开源的|是面向列的|是分布式的|是一种NoSQL数据库 BCD
MapReduce和Hbase的关系,哪些描述是正确的 多选 两者不可或缺,MapReduce是Hbase正常运行的保证|两者不是强关联关系,没有MapReduce,Hbase能正常运行|MapReduce能够直接访问Hbase|它们之间没有关系 BCD
以下哪些选项正确描述了Hbase的特性 多选 高可靠性|高性能|面向列|可伸缩 ABCD
以下哪些概念是Hbase框架中使用的 多选 HDFS|GridFS|Zookeeper|EXT3 AC
关于Hbase二级索引的描述,哪些是正确的 多选 核心是倒排表|二级索引的概念是相应Rowkey这个“一级”索引的|二级索引使用平衡二叉树|二级索引使用LSM结构 AB
属于 spark 部署方式的有 多选 local|client|cluster|spark on mesos AD
以下 spark 操作属于 transformation 的有 多选 map|flatmap|mapPartitions|take ABC
spark 主要包括 多选 spark-sql|mllib|spark-streaming|graphx ABCD
Docker的核心组件有哪些 多选 镜像|容器|仓库 ABC
Docker的容器的状态包含哪些 多选 运行|已暂停|重新启动|已退出 ABCD
以下哪些是docker的存储驱动程序 多选 AUES|Btrfs|Device mapper|OverlayFS|ZFS|VFS ABCDE
以下哪些命令是docker里用于把数据从宿主机挂载到容器 多选 volmues|bind mounts|tmpfs volmues ABC
docker内cgroup的功能有哪些 多选 资源限制|优先级分配|资源统计|任务控制 ABCD
以下哪些是虚拟机的优势 多选 封装性|隔离性|兼容性|独立于硬件 ABCD
Vmware虚拟机的网络配置包含哪几种模式 多选 桥接模式|NAT模式|仅主机模式 ABC
以下哪一个不是Elasticsearch的优点 多选 横向可扩展性|分片机制提供更好的分布性|高可用|使用简单 ABCD
以下关于neo4j CQL中描述正确的是 多选 它是Neo4j图形数据库的查询语言|它是一种声明性模式匹配语言|不遵循SQL语法|语法简单且人性化、可读 ABD
以下关于neo4j 索引描述正确的是 多选 Legacy index通过外部图存储在外的Lucene实现,允许“节点”和“关系”以key:value键值对的方法被检索|Legacy index能够提供全文本检索的能力|shcema indexes基本应用在于带属性的“标签”在路径匹配|使用schema index能够提高查询速度 ABCD
以下关于HDFS说法错误的是 多选 如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作|Block Size 是可以修改的|SecondaryNameNode内存需求和NameNode在一个数量级上|hadoop dfs admin –report 命令可以检测 HDFS 损坏块 AD
关于SecondaryNameNode 哪项是正确的 多选 它是NameNode的热备|SecondaryNameNode内存需求和NameNode在一个数量级上|他的目的使帮助NameNode合并编辑日志,减少NameNode 启动时间|SecondaryNameNode不应与NameNode 部署到一个节点 BCD
以下关于HDFS说法正确的是 多选 drop 内部表时,会删除 hdfs 上的文件夹和元数据|因为 HDFS 有多个副本,所以 NameNode 是不存在单点问题的|hdfs 系统不支持数据的修改|Slave 节点要存储数据,所以它的磁盘越大越好 AC
以下哪些为oracle中常见的索引 多选 位图索引|B树索引|倒序索引|函数索引 ABCD
对于hive的特性,以下说法不正确的是 多选 所有hive表中的数据均是存储在HDFS上|HIVE支持使用update对数据进行修改|Hive 中没有定义专门的数据格式,可以由用户指定|使用TEXTFILE来存储数据可以对数据进行压缩 BD
若p_day是个分区字段,以下依旧会使用到分区的特性的where条件为 多选 where p_day between '20191010' and '20191013'|where p_day >= '20191010'|where substr(p_day,1,6)='201910'|where p_day in ('20191010','20191011') ABCD
oracle中SCHEDULE,FREQ频率参数支持以下哪些类型 多选 SECONDLY|YEARLY|WEEKLY|MINUTELY ABCD
以下关于hive分桶中说法正确的是 多选 分桶是相对分区进行更粗粒度的划分|分桶将整个数据内容安装某列属性值得hash值进行区分|关联的两张表均分桶才能起到优化作用|分桶可以使取样更为高效 BCD
当执行sql语句出现FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask报错时,可能造成该报错的原因为 多选 文件数不足|存储空间不足|权限不足|语法错误 AB
以下哪些属于Oracle的物理结构 多选 重做日志文件|密码文件|控制文件|归档日志文件 ABCD
以下属于DML语句的为 多选 select|insert|drop|update ABD
关于Oracle中视图的说法,正确的是 多选 视图不占用存储空间|隐藏数据的逻辑复杂性并简化查询语句|视图可以从多个表中获取|视图每次的使用相当于重新执行sql ABCD
传统结构化数据库(比如Oracle)在大数据场景中的局限有存储的数据结构不够丰富、扩展困难等 判断 正确
在运营商级大数据平台中,Hadoop通常采用集群部署,可存储结构化、半结构化和非结构化数据。 判断 正确
Lambda架构为分层架构 判断 正确
HDFS只能通过命令行进行操作 判断 错误
MapReduce程序通常包括map、本地的归并(local groupby),shufle和reduce四步操作。 判断 正确
流处理引擎Storm采用消息队列作为底层通信机制,可以实现接收一条消息处理一条,因此其处理时效性优于SparkStreaming。 判断 正确
Spark分布式计算框架可以支持多种计算模式,包括批处理、流处理和SQL查询。 判断 正确
MapReduce和Spark分布式计算框架都具有shuffle操作。 判断 正确
Hive可以用于在MapReduce平台上进行SQL分析和查询,而且Hive可以支持对数据进行事务操作。 判断 错误
Kafka是一种分布式消息中间件,和其他基于内存的消息中间件区别在于,Kafka支持将数据写入磁盘保存,可以让应用重复消费数据。 判断 正确
HDFS是大数据底层的分布式存储系统,用来保存需要分析的数据,GB级别的大文件和KB级别的小文件都适合直接保存在HDFS上进行分析。 判断 错误
SparkStreaming流程序一旦启动后,将会一直运行,除非显式地将其停止。 判断 正确
Spark和MapReduce的执行模型都是多进程模式,即可以起多个进程进行数据的并行处理,其中每个进程起一个线程处理。 判断 错误
大数据治理的开展实施可以促成数据的价值变现 判断 正确
通过hadoop job –kill可以终止MapReduce任务 判断 正确
Hive对数据进行查询时,如果经常需要对个别字段做聚合计算,应该使用行存储格式,从而可以提升效率。 判断 错误
Flume进行数据采集时,只能使用磁盘文件作为数据的缓存,这样可以保证数据的可靠性。 判断 错误
Spark程序可以使用flatmap操作对数据进行降维转换,例如将一个两维的数组转换为一个一维的数组。 判断 正确
在Hive中创建内部表后,当对内部表进行删除操作后,内部表的描述信息会被删除,而且表的数据也会被删除。 判断 正确
Kafka消息中间件提供Producer-Consumer的消息处理模式,其中Producer端的消息由Kafka直接拉取,而Consumer端的消息则由Kafka直接推送。 判断 错误
Yarn只能支持MapReduce框架 判断 正确
HDFS适用于高吞吐量的实时数据读取 判断 错误
HDFS是以块为单位存储数据?() 判断 正确
Kafka通过topic来存储消息?() 判断 正确
Flume中的channel的capacity配置是指可以处理的消息总量?() 判断 错误
Spark支持的操作可以分为Transformation和Action两种,其中Transformation用于变换RDD。 判断 正确
Hive是基于Spark实现的SQL查询引擎,可以接收SQL语句对数据表进行关联查询分析。 判断 错误
Hadoop2.0软件框架中ResourceManager不仅需要管理资源,还需要对分析程序的执行过程进行监控和管理。 判断 错误
Spark可以使用cache()方法调用对RDD进行缓存,cache()是将RDD的数据序列化以后直接保存到内存中。 判断 错误
HBase的设计方法与传统SQL数据库不同,传统SQL数据库关注关系模型的建立,而HBase数据库设计时重点要考虑数据表的查询模式,从而设计行键。 判断 正确
错误性是大数据本身固有的。 判断 错误
Hadoop支持数据的随机读写 判断 错误
Hadoop的Block Size是不可修改的 判断 错误
Hadoop自身具有严格的权限管理和安全措施保障集群的正常运行 判断 错误
如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作 判断 错误
Hbase对于空值(null),不需要占用存储空间 判断 正确
spark 中的 RDD 是指弹性分部署数据集 判断 正确
spark ml 是面向 Dataframe 的 API, spark MLlib 是面向 RDD 的 API 判断 正确
Neo4j数据库服务器使用节点名称将此节点详细信息存储在Database中作为Neo4j DBA或Developer,可以使用它来访问节点详细信息。 判断 错误
HDFS中 使用–append 参数是将数据追加到 HDFS 上一个已存在的数据集上。 判断 正确
DataNode 首次加入 cluster 的时候,如果 log 中报告不兼容文件版本,那需要 NameNode执行“Hadoop namenode -format”操作格式化磁盘。 判断 错误
BDI流程当日账期作业报错,下一个账期作业不会继续执行。 判断 错误
模型描述补录操作必须使用DACP的数据治理模块 判断 错误
使用同一表空间的不同用户之间的表可以直接访问 判断 错误