博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Coursera, Big Data 4, Machine Learning With Big Data (week 1/2)
阅读量:5280 次
发布时间:2019-06-14

本文共 571 字,大约阅读时间需要 1 分钟。

 

Week 1 Machine Learning with Big Data

 

KNime - GUI based

Spark MLlib - inside Spark

 

CRISP-DM 

  

  

  

 

 

Week 2, Data Exploration

一般有两种方法,summary statistics 和 visualization

  

 

Summary statistics (mean  平均数,median 中位数, mode 最常见的数)

  

  

 

   

high Kurtosis 预示着有outlier的存在

   

 

visualization

  

这里详细讲一下 box plot

下图的 upper quartile 和 lower quartile 分别指的是 75% 和 25% 的点, median 很明显是中位数点,中间柱状部分的数据占了总数据的50%. Upper extreme 和 Lower extreme 分别是90% 和 10% 数据的点,超出部分就是outliers.

  

 

Data preparing

  

  

data wrangling 主要是transformation   

 

转载于:https://www.cnblogs.com/mashuai-191/p/10267619.html

你可能感兴趣的文章
MouseOver/MouseOut vs MouseEnter/MouseLeave
查看>>
使用web api开发微信公众号,调用图灵机器人接口(一)
查看>>
与HTTP协作的Web服务器
查看>>
(转)python time模块和datetime模块详解
查看>>
poj3255 Roadblocks 次短路
查看>>
Spring 3.0.5 MVC 基于注解ehcache.xml 配置方式
查看>>
Spark安装部署
查看>>
Environment.NewLine
查看>>
insert into 和 where not exists
查看>>
BZOJ4380: [POI2015]Myjnie
查看>>
ASP.NET中的多线程整理
查看>>
阶段总结
查看>>
Quartz.Net学习笔记(二) Jobs And Triggers
查看>>
java 注解
查看>>
砸砖块
查看>>
如何用启动界面给用户创造出色的第一印象
查看>>
.NET-记一次架构优化实战与方案-目录
查看>>
附加事件
查看>>
DRBD+Heratbeat+NFS高可用文件共享存储
查看>>
20145203盖泽双 反汇编代码实践
查看>>