用户工具

站点工具


专业题库:通信技术:大数据考试题库4

大数据考题

单选题


1、程序开发中不包含以下哪个组件?
A. 数据迁移 B. 文件上传 C. SQL语句 D. 创建表
参考答案:B

2、以下哪个用户权限可打开“我的团队”页面?
A. 运维人员 B. 系统管理员 C. 开发人员 D. 上下线
参考答案:B

3、在调度监控页面中,不可查看任务哪些内容?
A. 血缘信息 B. 配置信息 C. 程序步骤 D. 资源情况
参考答案:C

4、在调度管理页面中,不包含以下哪种功能按钮?
A. 重做当前 B. 重做后续 C. 强制执行 D. 删除任务
参考答案:D

5、在数据治理-模型命名规范页面中,哪种命名规范是不可配置的?
A. 表名必须大写 B. 表名关键字填写 C. 表名前缀校验 D. 表名后缀校验
参考答案:D

6、在程序调度配置里设置偏移4天,批次偏移应为?
A. -3 B. -4 C. +3 D. +4
参考答案:B

7、模型移植时,()会导致模型依赖的程序与模型不是同一个团队?
A. 新增程序时,程序名与对应分享模型名不同 B. 创建表时,表名与对应分享模型名不同 C. 输出表未选分享的那张表 D. 没有配置调度内容
参考答案:C

8、在数据导入页面中,以下哪个表名满足导入要求?
A. Temp_dacp001 B. Dacp_temp_001 C. 001_temp_dacp D. Tmp_dacp001
参考答案:A

9、以下哪种用户角色拥有金库审核通道?
A. 测试角色 B. 白名单用户 C. 指标政企角色 D. 敏捷挖掘角色
参考答案:B

10、在取数工具(新)中,不包含下列哪个功能按钮?
A. 执行 B. 中断 C. 字体颜色 D. 字体大小
参考答案:C

11、在程序管理-跨团队移交页面中,以下哪个步骤为正确移交步骤?
A. 复制→粘贴 B. 剪切→粘贴 C. 移交→粘贴 D. 粘贴→复制
参考答案:C

12、政企角色可查看以下哪种维度的指标?
A. 渠道维度 B. 用户维度 C. 政企维度 D. 网络维度
参考答案:C

13、在调度任务-任务管理页面中,不可对任务进行哪种操作
A. 创建任务 B. 导出任务 C. 删除任务 D. 修改任务
参考答案:B

14、在数据导入页面中,数据文件中可选哪个符号为分隔符?
A. - B. , C. ? D. \
参考答案:B

15、以下两种描述分别对应哪两种对分类算法的评价标准? ( ) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。
A. Precision,Recall B. Recall,Precision C. Precision,ROC D. Recall,ROC
参考答案:A

16、程序开发中,用户不可通过哪种关键字段进行搜索?
A. 程序名称 B. 关键表名 C. 负责人 D. 创建时间
参考答案:D

17、 ( )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约
参考答案:D

18、当前社会中,最为突出的大数据环境是( )。
A. 互联网 B. 物联网 C. 综合国力 D. 自然资源
参考答案:A

19、下列关于聚类挖掘技术的说法中,错误的是( )。
A. 不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B. 要求同类数据的内容相似度尽可能小 C. 要求不同类数据的内容相似度尽可能小 D. 与分类挖掘技术相似的是,都是要对数据进行分类处理
参考答案:B

20、以下哪些算法是分类算法( )
A. DBSCAN B. C4.5 C. K-Mean D. EM
参考答案:B

21、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( )
A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理
参考答案:A

22、下列对大数据特点的说法中,错误的是( )。
A. 数据规模大 B. 数据类型多样 C. 数据处理速度快 D. 数据价值密度高
参考答案:D

23、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )
A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘
参考答案:C

24、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )
A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则
参考答案:C

25、数据仓库的最终目的是( )。
A. 收集业务需求 B. 建立数据仓库逻辑模型 C. 开发数据仓库的应用分析 D. 为用户和业务部门提供决策支持
参考答案:D

26、以下哪种方法不属于特征选择的标准方法: ( )
A. 嵌入 B. 过滤 C. 包装 D. 抽样
参考答案:D

27、当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )
A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链
参考答案:B

28、下面哪种图形最适合于对比数据
A. 柱状图 B. 散点图 C. 饼图 D. 折线图
参考答案:A

29、大数据的核心就是
A. 告知与许可 B. 预测 C. 匿名化 D. 规模化
参考答案:B

30、PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就
A. 相关性越高 B. 越不重要 C. 相关性越低 D. 越重要
参考答案:D

31、在采用spark访问hive表时,需要创建什么对象
A. HiveContext B. StreamingContext C. applicationContext D. SessionContext
参考答案:A

32、大数据的应用领域不包括
A. 大数据技术 B. 大数据工程大数据收集 C. 大数据科学
参考答案:C

33、 美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( )。
A. 在数据基础上倾向于全体数据而不是抽样数据 B. 在分析方法上更注重相关分析而不是因果分析 C. 在分析效果上更追究效率而不是绝对精确 D. 在数据规模上强调相对数据而不是绝对数据
参考答案:B

34、大数据不是要教机器像人一样思考。相反,它是
A. 把数学算法运用到海量的数据上来预测事情发的可能性。 B. 被视为人工智能的一部分。 C. 被视为一种机器学习。 D. 预测与惩罚。
参考答案:A

35、MapReduce支持的调度模式是( )。
A. FIFO B. Fair Scheduler C. Capacity Scheduler D. 以上都是
参考答案:D

36、终端销售的转化率经常使用哪种分析法
A. 对比分析 B. 漏斗分析 C. 结构分析 D. 综合评价法
参考答案:B

37、Spark 源代码开发的语言是( )。
A. JAVA B. python C. C++ D. Scala
参考答案:D

38、Hadoop运维中日志默认存储的目录为( )。
A. /opt B. /etc C. /usr D. /var
参考答案:D

39、解压.tar.gz结尾的HBase压缩包使用的Linux命令是( )。
A. tar –zxvf B. tar –zx C. tar –s D. tar -nf
参考答案:A

40、描述Spark错误的观点是( )。
A. Spark是基于内存的迭代计算的服务框架 B. Spark Stream可以实现准实时的流计算服务 C. Spark可以在Hadoop Yarn上进行运算 D. Spark是一个依赖于Yarn调度的计算框架
参考答案:D

41、HFile数据格式中的Data字段用于( )。
A. 存储实际的KeyValue数据 B. 存储数据的起点 C. 指定字段的长度 D. 存储数据块的起点
参考答案:A

42、大数据平台中源系统采集入库的表,定义为基础模型,基础模型是由什么打头的?
A. I打头 B. A打头 C. D打头 D. L打头
参考答案:C

43、建立一个模型,通过这个模型根据已知的变量值预测某个其它变量值属于数据挖掘的哪一类任务?
A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则
参考答案:C

44、跟数据挖掘的概念最接近的名词是:()
A. 数据探索 B. 数据处理 C. 数据转换 D. 机器学习
参考答案:D

45、以下哪项关于决策树的说法是错误的:( )
A. 决策树算法对于噪声的干扰非常敏感 B. 子树可能在决策树中重复多次 C. 冗余属性不会对决策树的准确率造成不利的影响 D. 寻找最佳决策树是NP完全问题
参考答案:A

46、下面哪一项不属于大数据平台数据架构的数据模型层的子层
A. 基础模型 B. 应用模型 C. 融合模型 D. 标签模型
参考答案:B

47、HBase依赖( )提供消息通信机制。
A. Zookeeper B. Chubby C. RPC D. Socket
参考答案:C

48、互联网出现的海量信息可以划分为三种,以下不属于的是
A. 结构化信息 B. 非结构化信息 C. 半结构化信息 D. 特殊化信息
参考答案:D

49、标签库登陆方式是?
A. 从dacp登陆 B. 从黄金眼进入 C. 从精营家进入 D. 从4A进入
参考答案:B

50、Hive的计算引擎是什么?
A. Spark B. MapReduce C. HDFS D. Java
参考答案:B

多选题


1、任务查询种可以按(ACD)查到相应流程?
A. 标题 B. 描述程序 C. 模型
参考答案:ABC

2、下面哪些是数据分析的步骤
A. 数据准备 B. 数据收集 C. 明确目的 D. 图表呈现
参考答案:ABCD

3、与大数据相关的技术有
A. 编译原理 B. 信息论 C. BIGTABLE D. MAPREDUCE
参考答案:CD

4、以下关于spark提交语句,描述正确的是
A. 任务提交时,可以设置任务名称 B. 任务提交时,可以设置cpu和内存资源使用需求 C. 任务提交时,可以添加附属文件和依赖包 D. 任务提交时,可以设置任务的并行度
参考答案:ABCD

5、Spark SQL主要由以下哪些部分组成
A. Catalyst优化 B. SPARK SQL 内核 C. 面向切片内核 D. Hive支持
参考答案:ABD

6、数据处理包含
A. 数据清洗 B. 数据转化 C. 数据提取 D. 数据计算
参考答案:ABCD

7、下面哪些是数据分析第一步( )要做的工作
A. 确定分析目的 B. 确定分析思路 C. 确定分析指标 D. 确定分析框架
参考答案:ABCD

8、下面哪些是精准营销要考虑的内容
A. 合适的客户群 B. 恰当的产品 C. 恰当的价格 D. 恰当的方式
参考答案:ABCD

9、精营家平台上的目标用户群如何创建?
A. 直接在精营家上导入号码清单文件 B. 通过在精营家上标签计算创建客户群 C. 通过在标签库上设置客户群推送到精营家 D. 从DACP建模后直接导入到精营家
参考答案:AC

10、运用大数据进行大治理要做到
A. 用数据说话 B. 用数据决策 C. 用数据管理 D. 用数据创新
参考答案:ABCD

11、hadoop 开发,目前主流的语言有
A. java B. go C. python D. ruby
参考答案:ACD

12、新建程序时,各SQL语句之间的连线条件包括?
A. 成功时 B. 失败时 C. 结束时 D. 完成时
参考答案:ABD

13、用于分类与回归应用的主要算法包括:
A. 决策树 B. BP神经网络 C. Apriori算法 D. K均值法
参考答案:AB

14、下列关于大数据的说法中,错误的是
A. 大数据具有体量大、结构单一、时效性强的特征 B. 处理大数据需采用新型计算架构和智能算法等新技术 C. 大数据的应用注重相关分析而不是因果分析 D. 大数据的应用注重因果分析而不是相关分析
参考答案:AD

15、下面哪些适用于描述和分析事物的结构
A. 结构分析 B. 饼图 C. 分类 D. 比例
参考答案:ABD

16、标签库中逻辑运算都包括哪些?
A. 且 B. 或 C. 剔除 D. 和
参考答案:ABC

17、数据分析主要有下面几种作用
A. 现状分析 B. 原因分析 C. 预测分析 D. 数据分组
参考答案:ABC

18、大数据平台有哪些数据?
A. 通话数据 B. 资管数据 C. MR数据 D. 工资数据
参考答案:ABC

19、以下哪些是Hive的内置的数据类型
A. INT B. BIGINT C. STRING D. TIMESTAMP
参考答案:ABCD

20、以下哪些类可以实现决策树分类
A. org.apache.spark.mllib.tree.DecisionTree B. org.apache.spark.ml.classification.DecisionTreeClassifier C. org.apache.spark.ml.classification.LogisticRegression D. org.apache.spark.ml.recommendation.ALS
参考答案:AB

21、Hive数据表插入数据时,insert( )table ……,括号中可使哪些关键字?
A. INTO B. APPEND C. IN D. OVERWRITE
参考答案:AD

22、以下哪些是spark的组件
A. Spark Streaming B. Mlib C. Graphx D. SPRING
参考答案:ABC

23、欧式距离具有()
A. 平移不变性 B. 旋转不变性 C. 尺度缩放不变性 D. 不受量纲影响的特性
参考答案:AB

24、决策树算法的优点有()
A. 解释性好 B. 复杂度O(logN) C. 模型生成稳定 D. 不易过拟合
参考答案:AB

25、以下哪些是Hive表的支持的文件存储形式?
A. RCFILE B. ORCFILE C. TEXTFILE D. SEQUENCEFILE
参考答案:ABCD

26、下面哪些是 RDD 的特点
A. 可分区 B. 可序列化 C. 可修改 D. 可持久化
参考答案:ABD

27、模式识别系统的主要构成部分有()
A. 特征提取 B. 样本筛选 C. 预处理 D. 分类决策
参考答案:ACD

28、在统计模式分类问题中,当先验概率未知时,可以使用()
A. 最小损失准则 B. 最小最大损失准则 C. 最小误判概率准则 D. N-P判决
参考答案:BD

29、计算机进行信息处理时,涉及数值型和非数值型数据,以下属于纯数值型算法的有()
A. 决策树 B. 贝叶斯决策法 C. BP神经网络 D. 遗传算法
参考答案:BC

30、点击右上角头像后可以进行的操作有?
A. 切换角色 B. 退出 C. 查看公告 D. 切换团队
参考答案:BCD

31、datamaster支持哪些类型的数据库?
A. mysql B. oracle C. hive D. gbase
参考答案:ABCD

32、对样本进行聚类分析需要考虑的因素有()
A. 聚类准则 B. 相似性测度 C. 样本质量 D. 聚类算法
参考答案:ABD

33、分享的模型经过评委打分如下,哪些可在模型超市首页展示?
A. 6 B. 7 C. 8 D. 9
参考答案:CD

34、以下哪种方法可以减少数据集中的特征( )?
A. 使用“前向”搜索 B. 使用“后向”搜索 C. 我们把模型中的所有特征都训练一次,得到测试中模型的精确性。每次取一个特征,对测试数据集的特征值进行清洗,并且对测试数据进行预测,然后评估模型。若模型的精确性提高,则移除次特征。 D. 根据相关表提出相关性高的特征
参考答案:ABCD

35、在调度监控页面中,以下哪些团队职责拥有任务重做权限?
A. 开发人员 B. 团队责任人 C. 运维人员 D. 上下线
参考答案:BC

36、集群管理中,三分钟内无法重复进行的操作是?
A. 修改 B. 启动 C. 停止 D. 删除
参考答案:BC

37、任务关系录入中的任务依赖类型有:
A. 时间依赖 B. SQL依赖 C. 任务依赖 D. MQ依赖
参考答案:ABCD

38、模型超市中创建的模型中,必须含有以下哪些字段?
A. product_no B. family_id C. user_id D. bill_no
参考答案:CD

39、关于删除调度信息,以下说法正确的是
A. 失效状态无法删除 B. 只有新建状态可删除 C. 失效状态下失效时间未超过24小时,无法删除 D. 在用状态无法删除
参考答案:CD

40、下列关于主成分分析法(PCA)说法正确的是?( )
A. 进行主成分分析之前要对数据进行中心化 B. 要选出方差最大的作为主成分 C. 要选出方差最小的作为主成分 D. 主成分分析法可用于低维数据的可视化处理
参考答案:ABD

判断题


1、Spark Streaming,Storm,Flink,MapReduce等都属于流计算
正确 错误
参考答案:错误

2、创建客户群周期为一次性时,无需创建模型?
正确 错误
参考答案:正确

3、取数工具(新)支持grant功能?
正确 错误
参考答案:正确

4、调度任务配置中,批次周期,调度任务不支持分钟及年周期?
正确 错误
参考答案:错误

5、对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息量要尽量精确。
正确 错误
参考答案:错误

6、SQL组件中,一个步骤只允许填写一个SQL语句,支持输入多个drop语句。
正确 错误
参考答案:正确

7、啤酒与尿布的经典案例,充分体现了实验思维在大数据分析理念中的重要性。
正确 错误
参考答案:错误

8、程序开发时可以直接使用其他团队的表?
正确 错误
参考答案:错误

9、Datanode负责HDFS的数据存储
正确 错误
参考答案:正确

10、在hive体系中,metastore用于SQL的解释优化
正确 错误
参考答案:错误

11、一次性客户群必须关联程序?
正确 错误
参考答案:错误

12、对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理。
正确 错误
参考答案:错误

13、大数据实际上是指一种思维方式、一种抽象的概念。
正确 错误
参考答案:正确

14、决策树是一种基于树形结构的预测模型,每一个树形分叉代表一个分类条件,叶子节点代表最终的分类结果,其优点在于易于实现,决策时间短,并且适合处理非数值型数据。
正确 错误
参考答案:正确

15、yarn组件用于对集群进行分布式资源统一管理
正确 错误
参考答案:正确

专业题库/通信技术/大数据考试题库4.txt · 最后更改: 2020/03/03 14:59 由 welog