Coursera, Big Data 4, Machine Learning With Big Data (week 1/2)-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Coursera, Big Data 4, Machine Learning With Big Data (week 1/2)

阅读量：5280 次

发布时间：2019-06-14

本文共 571 字，大约阅读时间需要 1 分钟。

Week 1 Machine Learning with Big Data

KNime - GUI based

Spark MLlib - inside Spark

CRISP-DM

　　

　　

　　

Week 2, Data Exploration

一般有两种方法，summary statistics 和 visualization

　　

Summary statistics (mean 平均数，median 中位数， mode 最常见的数)

　　

　　

　　

high Kurtosis 预示着有outlier的存在

　　

visualization

　　

这里详细讲一下 box plot

下图的 upper quartile 和 lower quartile 分别指的是 75% 和 25% 的点， median 很明显是中位数点，中间柱状部分的数据占了总数据的50%. Upper extreme 和 Lower extreme 分别是90% 和 10% 数据的点，超出部分就是outliers.

　　

Data preparing

　　

　　

data wrangling 主要是transformation 　　

转载于:https://www.cnblogs.com/mashuai-191/p/10267619.html

你可能感兴趣的文章

MouseOver/MouseOut vs MouseEnter/MouseLeave

使用web api开发微信公众号，调用图灵机器人接口（一）

与HTTP协作的Web服务器

(转)python time模块和datetime模块详解

poj3255 Roadblocks 次短路

Spring 3.0.5 MVC 基于注解ehcache.xml 配置方式

Spark安装部署

Environment.NewLine

insert into 和 where not exists

BZOJ4380: [POI2015]Myjnie

ASP.NET中的多线程整理

Quartz.Net学习笔记（二） Jobs And Triggers

如何用启动界面给用户创造出色的第一印象

.NET-记一次架构优化实战与方案-目录

DRBD+Heratbeat+NFS高可用文件共享存储

20145203盖泽双反汇编代码实践

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-11-26 06:23:07 当前IP: 18.191.87.157 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我