本课程为专业选修课程,课程考核内容为本大纲规定内容,期末考核方式为考查,期末考核方法为闭卷考试。成绩评定一般采用结构成绩,总评成绩=60%期末考试成绩+40%平时成绩。国开2022年春《大数据技术》(专科)形考任务3试题及答案由学赛网为您提供整理,仅供参考。
A.刀片服务器、高速网、SAN,价格贵,扩展性差上
B.共享式(共享内存/共享存储),容错性好
C.编程难度高
D.实时、细粒度计算、计算密集型
A.MapReduce采用“ 分而治之”策略
B.MapReduce设计的一个理念就是“ 计算向数据靠拢”
C.MapReduce框架采用了Master/Slave架构
D.MapReduce应用程序只能用Java来写
A.抽象层次高
B.表达能力有限,抽象层次低,需人工编码
C.价格昂贵
D.可维护性低
A.Hive与Impala使用相同的元数据
B.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划
C.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询
D.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此
A、create database userdb;//创建数据库userdb
B、create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age
C、load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表
D、insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据
A.Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
B.Spark在2014年打破了Hadoop保持的基准排序纪录
C.Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度
D.Spark运行模式单一
A.使用DAG执行引擎以支持循环数据流与内存计算析
B.可运行于独立的集群模式中,可运行于Hadoop中,也可运行于AmazonEC2等云环境中
C.支持使用Scala、Java、Python和R语言进行编程,但是不可以通过SparkShell进行交互式编程
D.可运行于独立的集群模式中,可运行于Hadoop中,也可运行于AmazonEC2等云环境中
A.Scala语法复杂,但是能提供优雅的API计算
B.Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统
C.Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
D.Scala是Spark的主要编程语言
A.非共享式,容错性好
B.普通PC机,便宜,扩展性好
C.编程简单,只要告诉MapReduce做什么即可
D.批处理、非实时、数据密集型
A.用户编写的MapReduce程序通过Client提交到JobTracker端
B.JobTracker负责资源监控和作业调度
C.TaskTracker监控所有TaskTracker与Job的健康状况
D.TaskTracker使用“slot”等量划分本节点上的资源量(CPU、内存等)
A.实时性差(适合批处理,不支持实时交互式)
B.资源浪费(Map和Reduce分两阶段执行)
C.执行迭代操作效率低
D.难以看到程序整体逻辑
A.Hadoop自身核心组件MapReduce的架构设计改进
B.Hadoop自身核心组件HDFS的架构设计改进
C.Hadoop生态系统其它组件的不断丰富
D.Hadoop生态系统减少不必要的组件,整合系统
A.设计了HDFSHA
B.提供名称节点热备机制
C.设计了HDFS Federation,管理多个命名空间
D.设计了新的资源管理框架YARN
A、数据仓库Hive不需要借助于HDFS就可以完成数据的存储
B、Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上
C、Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据
D、HiveQL语法与传统的SQL语法很相似
A.Scala的优势是提供了REPL(Read-Eval-PrintLoop,交互式解释器),提高程序开发效率
B.Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
C.Scala具备强大的并发性,支持函数式编程
D.Scala可以更好地支持分布式系统