dataprep:Python数据自动化分析神器

释放双眼,带上耳机,听听看~!
了解如何使用开源的Python第三方库dataprep进行数据自动化分析,快速创建数据分析报告,绘制整体图形、缺失值和相关系数图形等。

机器学习数据自动化分析神器-dataprep

公众号:尤而小屋
作者:Peter
编辑:Peter

大家好,我是Peter~

dataprep是一个开源的Python第三方库,有助于数据科学者、数据分析师等自动化进行数据探索,能够快速地创建数据分析报告,还能够绘制整体图形、缺失值和相关系数等图形。

在本文中小编给大家详细介绍dataprep库的使用。

dataprep:Python数据自动化分析神器

官网地址:dataprep.ai/

GitHub地址:github.com/sfu-db/data…

安装

在使用之前,先进行安装:建议使用豆瓣源安装,快速!

pip install -i https://pypi.douban.com/simple/ dataprep

导入库

先导入我们需要使用的库:

from dataprep.datasets import load_dataset  # 内置数据集
from dataprep.eda import plot # 绘图
from dataprep.eda import plot_correlation # 相关性
from dataprep.eda import create_report  # 分析报告
from dataprep.eda import plot_missing  # 缺失值

导入数据

提供两种数据导入方式:

  • 内置数据集(如果有)
  • 本地数据集
# 导入内置数据
df = load_dataset("titanic")  
# 导入本地数据
# df = pd.read_csv("titanic.csv")

df.head()

dataprep:Python数据自动化分析神器

查看数据的基本信息:

In [3]:

df.shape

Out[3]:

(891, 12)

In [4]:

df.isnull().sum()

Out[4]:

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [5]:

df.dtypes

Out[5]:

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

使用dataprep自动化探索

整体数据分析

In [6]:

plot(df)

dataprep:Python数据自动化分析神器

指定单个字段分析

In [7]:

plot(df, "Age")

直接指定Age字段:

dataprep:Python数据自动化分析神器

dataprep:Python数据自动化分析神器

dataprep:Python数据自动化分析神器

指定多个字段分析

In [8]:

plot(df, "Age","Embarked")

查看两个字段之间的分析:

dataprep:Python数据自动化分析神器

dataprep:Python数据自动化分析神器

相关系数

In [9]:

plot_correlation(df)  # 相关系数

查看字段的3种相关系数:

dataprep:Python数据自动化分析神器

缺失值

In [10]:

plot_missing(df)  # 缺失值情况

查看数据的缺失值信息:

dataprep:Python数据自动化分析神器

dataprep:Python数据自动化分析神器

分析报告

In [11]:

create_report(df).show()  # 报告

返回的数据的整体分析报告(整个图):

dataprep:Python数据自动化分析神器

dataprep:Python数据自动化分析神器

dataprep:Python数据自动化分析神器

dataprep:Python数据自动化分析神器

dataprep:Python数据自动化分析神器

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

Pytorch 2.0加速训练体验

2023-12-10 11:07:14

AI教程

AIGC在时尚行业的应用及落地方案解析

2023-12-10 11:25:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索