作为一个资深调包侠,收集各式各样功能的R包是我的爱好之一,R语言现在是我工作中最主要的工具,无论是科研中的数据读取还是下游的数据报告,我都会使用R的各种包来完成。下面从数据分析的整个工作流程(数据导入与获取-数据处理-数据分析-数据报告-其他奇技淫巧)介绍一些相对小众但是超好用的R包。
1.数据导入与获取
1.1 readr
一般数据读取 readr, read_xx系列(这个包其实不小众)
相对于R 基础包的http://read.xxx而言,read_xxx系列主要有两个改动: 1. 字符没有默认为因素变量, 2. 读取数据时会显示数据的类型,如下图。
出处:
https://readr.tidyverse.org/
1.2 vroom
大体量数据读取vroom 包。可以媲美data.table包中的fread函数的读取速度,快速读取GB体量的数据。主要用法见下图:
出处:
https://www.tidyverse.org/blog/2019/05/vroom-1-0-0/
R中各种函数读取文件速度的测评见:
https://cran.r-project.org/web/packages/vroom/vignettes/benchmarks.htmlcran.r-project.org
1.3 datapasta
复制黏贴大师,datapasta包,它可以直接从excel,网页等数据源中将数据直接复制到R中,甚至可以一定程度上代替简单爬虫。
datapasta 示例:摘自:
https://github.com/MilesMcBain/datapasta
2.数据处理和汇总
2.1 Rmisc
数据处理和汇总这部分现在基本被dplyr+ tidyr 和 data.table 垄断。 但是我偶尔也会用到别的包,比方说Rmisc 这个包做数据汇总。原因是这个包中的summarySEwithin 函数可以用来处理被试内变量画error bar图。
比如上图这种情况,重复测量的error bar 和被试间设计的error bar一个样, 所以需要校正 图片引自:Andy Field Discovering Statistics Using R Chapter 9
2.2 naniar
此外,在缺失值处理上,如果需要快速找出缺失值,或者简单查看缺失值占比和分布,可以使用 naniar 包。比如可以通过下面的代码快速发现缺失值的分布:
library(naniar)
ggplot(data = airquality,
aes(x = Ozone,
y = Solar.R)) +
geom_miss_point()
naniar 用法 摘自:
https://github.com/njtierney/naniar
3.数据分析相关
3.1 skimr
skimr 包,快速给出数据的描述性统计结果并附带频数分布图,用法见下图:
出处:
https://github.com/ropensci/skimr
3.2 compareGroups
compareGroups 包,快速做描述性统计表格(比如下图这种,附带频数的卡方检验),支持输出docx格式。
出处:
https://cran.r-project.org/web/packages/compareGroups/vignettes/compareGroups_vignette.html
3.3 effectsize
effectsize 包, 万能效应量转换器, 我一般用到的是图下的函数,比如通过F值和自由度求效应量等等。
出处:
https://easystats.github.io/effectsize/reference/index.html
4.数据报告相关
4.1 esquisse
esquisse 包,免代码ggplot 生成器,鼠标点点点就能在R-studio里面画图。
出处:
https://github.com/dreamRs/esquisse
4.2 ggThemeAssit
ggThemeAssit包,调节ggplot对象的神器, 免代码调节ggplot的细节参数,比如字体,背景颜色等等。
出处:
https://github.com/calligross/ggthemeassist
4.3 apaTables
直接一键输出apa格式表格到word文档。
输出apa格式的表格到doc文件,出处:
https://github.com/dgromer/apa
4.4 papaja
这个包可以借助Rmarkdown写APA格式的可发表的论文,不过我平时主要是用它里面的theme_apa() ggplot的主题。
出处:
https://github.com/crsh/papaja
4.5 xaringan
xaringan包, 使用Rmarkdown写类似PPT一样的幻灯片进行数据分析报告。大神谢益辉写的包,支持中文!
出处:
https://github.com/yihui/xaringan
4.6 patchwork
patchwork包,让你能够非常轻松的在一张画布上布局多张ggplot的图片,如下图:
出处:
https://patchwork.data-imaginist.com/
5.其他奇技淫巧
5.1 BERT (这其实是个excel插件)
在Excel 里面用R 语言进行数据处理
详情见:https://bert-toolkit.com/
5.2 waldo
比较R 中的对象并给出前后差异,神器!
出处:
https://github.com/r-lib/waldo
5.3 livecode
局域网网页直播写代码,上课或者工作坊必备!
出处:
https://github.com/rundel/livecode
5.4 ProjectTemplate
建立结构化的数据分析项目,给每个数据分析单独建一个项目,促进数据分析的可再生性。
出处:
http://projecttemplate.net/getting_started.html
5.5 emo
在R里面输入各种表情包:
出处:
https://github.com/hadley/emo
5.6 taskscheduleR
R语言定时任务必备。比如爬虫任务,每隔一段时间抓取某网页信息,想当年我就是用这个包抢到了租房网站的房子。。。
出处:
https://cran.r-project.org/web/packages/taskscheduleR/vignettes/taskscheduleR.html
5.7 DataEditR
像Excel一样无代码操作R-studio里面导入的数据:
出处:
https://cran.r-project.org/web/packages/DataEditR/vignettes/DataEditR.html
5.8 todor
这个包特别在专门针对你代码中的comment 进行归类,使你的代码更加结构化。可以通过R-studio的插件来使用这个包
详情见:
https://cran.r-project.org/web/packages/todor/todor.pdf
本文转自愷洋,请支持原创!
小结
感谢大家耐心看完,自己的文章都写的很细,代码都在原文中,希望大家都可以自己做一做,如果对您有用请先收藏,再点赞转发。
也欢迎大家的意见和建议。
如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何问题,都可以联系我。因为我可以给您提供最好的,最详细和耐心的数据分析服务。
如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节等等统计技巧有任何问题,请私信我,获取最详细和耐心的指导。
If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.
Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??
Then Contact Me. I will solve your Problem...
加油吧,打工人!
本文转自愷洋,请支持原创!