R数据分析:相对小众但是超好用的R包汇总

作为一个资深调包侠,收集各式各样功能的R包是我的爱好之一,R语言现在是我工作中最主要的工具,无论是科研中的数据读取还是下游的数据报告,我都会使用R的各种包来完成。下面从数据分析的整个工作流程(数据导入与获取-数据处理-数据分析-数据报告-其他奇技淫巧)介绍一些相对小众但是超好用的R包。


1.数据导入与获取

1.1 readr

一般数据读取 readr, read_xx系列(这个包其实不小众)

相对于R 基础包的http://read.xxx而言,read_xxx系列主要有两个改动: 1. 字符没有默认为因素变量, 2. 读取数据时会显示数据的类型,如下图。

出处:
https://readr.tidyverse.org/


1.2 vroom

大体量数据读取vroom 包。可以媲美data.table包中的fread函数的读取速度,快速读取GB体量的数据。主要用法见下图:

出处:
https://www.tidyverse.org/blog/2019/05/vroom-1-0-0/

R中各种函数读取文件速度的测评见:

https://cran.r-project.org/web/packages/vroom/vignettes/benchmarks.htmlcran.r-project.org


1.3 datapasta

复制黏贴大师,datapasta包,它可以直接从excel,网页等数据源中将数据直接复制到R中,甚至可以一定程度上代替简单爬虫。

datapasta 示例:摘自:
https://github.com/MilesMcBain/datapasta


2.数据处理和汇总

2.1 Rmisc

数据处理和汇总这部分现在基本被dplyr+ tidyr data.table 垄断。 但是我偶尔也会用到别的包,比方说Rmisc 这个包做数据汇总。原因是这个包中的summarySEwithin 函数可以用来处理被试内变量画error bar图。

比如上图这种情况,重复测量的error bar 和被试间设计的error bar一个样, 所以需要校正 图片引自:Andy Field Discovering Statistics Using R Chapter 9

2.2 naniar

此外,在缺失值处理上,如果需要快速找出缺失值,或者简单查看缺失值占比和分布,可以使用 naniar 包。比如可以通过下面的代码快速发现缺失值的分布:

library(naniar)

ggplot(data = airquality,
       aes(x = Ozone,
           y = Solar.R)) +
  geom_miss_point()

naniar 用法 摘自:
https://github.com/njtierney/naniar


3.数据分析相关

3.1 skimr

skimr 包,快速给出数据的描述性统计结果并附带频数分布图,用法见下图:

出处:
https://github.com/ropensci/skimr

3.2 compareGroups

compareGroups 包,快速做描述性统计表格(比如下图这种,附带频数的卡方检验),支持输出docx格式。

出处:
https://cran.r-project.org/web/packages/compareGroups/vignettes/compareGroups_vignette.html

3.3 effectsize

effectsize 包, 万能效应量转换器, 我一般用到的是图下的函数,比如通过F值和自由度求效应量等等。

出处:
https://easystats.github.io/effectsize/reference/index.html


4.数据报告相关


4.1 esquisse

esquisse 包,免代码ggplot 生成器,鼠标点点点就能在R-studio里面画图。

出处:
https://github.com/dreamRs/esquisse

4.2 ggThemeAssit

ggThemeAssit包,调节ggplot对象的神器, 免代码调节ggplot的细节参数,比如字体,背景颜色等等。

出处:
https://github.com/calligross/ggthemeassist

4.3 apaTables

直接一键输出apa格式表格到word文档。

输出apa格式的表格到doc文件,出处:
https://github.com/dgromer/apa

4.4 papaja

这个包可以借助Rmarkdown写APA格式的可发表的论文,不过我平时主要是用它里面的theme_apa() ggplot的主题。

出处:
https://github.com/crsh/papaja


4.5 xaringan

xaringan包, 使用Rmarkdown写类似PPT一样的幻灯片进行数据分析报告。大神谢益辉写的包,支持中文!

出处:
https://github.com/yihui/xaringan


4.6 patchwork

patchwork包,让你能够非常轻松的在一张画布上布局多张ggplot的图片,如下图:

出处:
https://patchwork.data-imaginist.com/


5.其他奇技淫巧

5.1 BERT (这其实是个excel插件)

在Excel 里面用R 语言进行数据处理

详情见:https://bert-toolkit.com/

5.2 waldo

比较R 中的对象并给出前后差异,神器!

出处:
https://github.com/r-lib/waldo

5.3 livecode

局域网网页直播写代码,上课或者工作坊必备!

出处:
https://github.com/rundel/livecode

5.4 ProjectTemplate

建立结构化的数据分析项目,给每个数据分析单独建一个项目,促进数据分析的可再生性。

出处:
http://projecttemplate.net/getting_started.html

5.5 emo

在R里面输入各种表情包:

出处:
https://github.com/hadley/emo


5.6 taskscheduleR

R语言定时任务必备。比如爬虫任务,每隔一段时间抓取某网页信息,想当年我就是用这个包抢到了租房网站的房子。。。

出处:
https://cran.r-project.org/web/packages/taskscheduleR/vignettes/taskscheduleR.html


5.7 DataEditR

像Excel一样无代码操作R-studio里面导入的数据:

出处:
https://cran.r-project.org/web/packages/DataEditR/vignettes/DataEditR.html

5.8 todor

这个包特别在专门针对你代码中的comment 进行归类,使你的代码更加结构化。可以通过R-studio的插件来使用这个包

详情见:
https://cran.r-project.org/web/packages/todor/todor.pdf

本文转自愷洋,请支持原创!

小结

感谢大家耐心看完,自己的文章都写的很细,代码都在原文中,希望大家都可以自己做一做,如果对您有用请先收藏,再点赞转发。

也欢迎大家的意见和建议。

如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何问题,都可以联系我。因为我可以给您提供最好的,最详细和耐心的数据分析服务。

如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节等等统计技巧有任何问题,请私信我,获取最详细和耐心的指导。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

加油吧,打工人!

本文转自愷洋,请支持原创!

原文链接:,转发请注明来源!