R语言基础学习:典型的数据分析项目工作流程

2023年 7月 12日 59.5k 0

一个典型的数据分析项目的工作流程:

R语言基础学习:典型的数据分析项目工作流程

Tidy(数据整理):将数据整理成R可识别的格式,每列是一个变量,每行是一个观测;

Tranform(数据转换):将数据转换成分析直接需要的数据,即数据的二次加工,如选出感兴趣的行,用现有的变量创建新变量,计算一些统计量等;

Tidyverse:是一个连贯的数据操作系统,用于数据操作、探索和可视化,其中包含一些核心R包,这些包按功能可以分为数据导入、数据整理、数据转换、可视化、建模、编程;

ggplot2: for data visualisation(画图、可视化数据)

dplyr:for data manipulaion(操控数据、过滤、排序等)

tidyr: for data tidying(清理数据,转为ggplot可用的格式)

readr: for data import(从文件中读取数据)

tibble: data.frame的升级款

stringr:处理字符、查找、替换等;

forcats: for factors,(处理因子问题)

tibble格式:R中对多变量数据的标准保存形式是dataframe,而tibble是dataframe的进化版,它的优点有:生成的数据框数据每列可以保持原来的数据格式,不会被强制性改变,即字符串;查看数据是,不会一行显示不下,多行显示非常丑;数据操作速度很快;

管道函数%>%,是tidyverse数据整理的主力,可以把许多功能连在一起;

  • dplyr包

基本上包含了我们整理数据的所有功能

filter:filters out rows according to some condictions(根据条件对行进行过滤)

arrange:reorders rows according to some conditions(根据条件对行进行排序)

select: select a subsetof columns(只保留部分列的数据)

mutate: adds a new column as a function of existing coulums(增加新的列)

summarize:collapses a data frame to a single row(概述数据的统计特征)

group_by: breaks a data frame into groups of rows(对数据按照行进行分组)

相关文章

JavaScript2024新功能:Object.groupBy、正则表达式v标志
PHP trim 函数对多字节字符的使用和限制
新函数 json_validate() 、randomizer 类扩展…20 个PHP 8.3 新特性全面解析
使用HTMX为WordPress增效:如何在不使用复杂框架的情况下增强平台功能
为React 19做准备:WordPress 6.6用户指南
如何删除WordPress中的所有评论

发布评论