本课程涉及的主题包括基础篇和实战篇两部分,其中基础篇包括:数据挖掘基础,Python数据分析简介,数据探索,数据预处理和挖掘建模;实战篇包括:电力窃漏电用户自动识别,航空公司客户价值分析,中医证型关联规则挖掘,基于水色图像的水质评价,家用电器用户行为分析与事件识别,应用系统负载分析与磁盘容量预测和电子商务网站用户行为分析及服务推荐。
要考虑“储蓄水平”与“人口水平”之间的相关。“储蓄水平”收集了储蓄比率(sr)、人均可支配收入(dpi)、人均可支配收入变化的百分率(ddpi)3个变量,“人口水平”收集了15岁以下人口的百分比、75岁以上人口百分比2个变量。请问采用下面哪种分析方法更合适()。
A.单向关
B.典型相关
C.偏相关
D.点二列(点双列)相关
关于设定虚拟变量时应当遵循如下原则,下列说法错误的是:()。
A.对于有k个表现值的定性变量,只设定(k-1)个虚拟变量;
B.虚拟变量的值通常用“0”或“1”来表示;
C.对于每个样本而言,同一个定性变量对应虚拟变量的值之和不超过1;
D.对于季节变量而言,四个季节需要设定4个虚拟变量
如果要解决随着员工职位的变动,员工报酬会变动多大的问题,下面说法不正确的是()。
A.员工职位需要考虑成是分类变量
B.员工职位需要引入虚拟变量来处理
C.如果员工职位有5个类别,那么需要引入5个虚拟变量来表示
D.员工报酬需要考虑成被解释变量
为研究电商注册用户数量与其销售收入之间的关系,收集数据得到下面的散点图。请问这样的散点图适用建立下面哪种回归模型()。
A.线性回归模型
B.非线性回归模型
C.对数线性模型
D.Logistic回归模型
A.此次分析构建了一个计数模型
B.收集了30个观测数据
C.对数似然值为-39.804
D.自变量都不显著
关于下面的决策树说法不正确的是()。
A.此决策树根节点的gini为0.145
B.落入此决策树根节点中的数据有35个
C.此次划分的gini增益为0.058
D.落入Petal、Length≤5.05的数据将为判为versicolor一类
关于分位数回归,下面说法正确的是()。
A.当数据具有尖峰厚尾的分布特征或有离群点(即异常值)时,采用分位数回归更稳健。
B.分位数回归不需要进行残差检验
C.分位数回归会给出因变量不同分位数水平下的参数估计
D.分位数回归不需要做模型检验
关于马氏距离说法正确的是:()。
A.马氏距离不受总体空间大小的影响
B.受计量单位的影响
C.反映了按平均水平计算被判定样本到中心的相对距离(该距离以方差为单位)
D.是标准化的变量的欧氏距离
A.左图两类数据的划分是一个线性可分问题
B.右图的两类数据的划分是一个线性不可分问题
C.左图两类数据的划分是一个线性不可分问题
D.右图的两类数据的划分是一个线性可分问题