本课程从大数据挖掘分析技术实战的角度,结合理论和实践,全方位地介绍基于Python语言的大数据挖掘算法的原理与使用。
请问在Python中缺失值通常用()来记号。
A.NaN
B.?
C.NA
D.na
请问不是缺失值通常用的处理方式是()。
A.填补
B.删除
C.插补
D.提取
数据整合后()。
A.数据量会增加
B.数据量会不变
C.数据的波动性增加
D.数据波动性减小
数据离散化可以采用()方式。
A.等宽或者等频
B.插补
C.抽样
D.查询
下面关于主成分分析说法错误的是()。
A.主成分是相互正交(垂直)的
B.主成分捕获了数据差异最大的方向
C.是线性降维方法
D.是非线性降维方法
数据经过标准化处理后()。
A.数据的波动性将会增加
B.数据的波动单位为1
C.数据的波动性将会减小
D.数据值将被放大
白化是指()。
A.从相关矩阵出发求解主成分
B.从协方差矩阵出发求解主成分
C.将数据进行标准化
D.剔除数据中的异常值
分类模型评价时,通常采用()损失。
A.0-1损失
B.指数
C.绝对值
D.平方
不是回归模型常采用的评价指标是()。
A.MAE
B.MSE
C.R2
D.准确率
期望预测误差是指()。
A.真实值与预测值在某种损失函数下的平均值
B.真实值与预测值之差
C.真实值与预测值在某种损失函数下的值
D.真实值与预测值之比
缺失数据的处理方法包括()。
数据抽样后()。
B.数据量会减少
C.数据的波动性可能增加
D.数据波动性可能减小
下面关于主成分分析说法正确的是()。
期望预测误差中的方差部分是由()带来的。
A.最优解所在空间假设失误
B.数据的随机性
C.估计值自身的波动
D.估计值的平均可能偏离了真实值
聚类分析的外部评价指标通常有()。
A.DBI
B.兰德指数
C.Jaccard系数
D.FM指数
E.DI
分类任务的评价指标通常采用()。
A.准确度
B.ROC曲线
C.特效度
D.灵敏度
E.错分成本
主成分分析中最大的特征值对应的特征向量也就是是数据差异最大的的方向。()
白化是指将数据进行标准化。()
数据经过标准化处理后,数据的波动性将会减小。()
在Python中缺失值通常用NA来记号。()
主成分是相互正交(垂直)的。()
回归模型评价时,通常采用0-1损失。()
兰德指数是聚类分析的内部评价指标。()
期望预测误差中的偏差部分是由估计值的平均可能偏离了真实值带来的。()
分类模型评价时,通常采用平方损失。()
由于最优解所在空间假设失误将会造成期望预测误差中的方差部分。()