微信公众号


R语言
数据科学与人工智能
原创 特征选择:卡方检验
01 卡方检验是什么 >卡方检验是一种统计量的分布在零假设成立时近似服从卡方分布的假设检验。在没有其他的限定条件或说明下,卡方检验一般指的是皮尔森卡方检验。——《维基百科》 上图表示分别在1、2、3、4、5的自由度下,卡方统计量(X轴)与P值(P-value,Y轴)之间的变化关系。 02 卡方检验与特征选择 特征选择……


原创 特征选择
01 为什么要做特征选择? 我们研究特征选择,有这些好处: 1 大数据时代,数据挖掘和机器学习的一大挑战就是维数灾难,特征选择是缓解维数灾的一种有效方法。 2 通过特征选择,可以建立有效的模型,避免过拟合,提升模型能。 3 对高维数据做处理和分析时,使用特征选择,可以减少内存的空间和降低算力成本。 4 做特征选择,可以……


原创 绘制多种算法的Accuracy的对比分析可视化
问题提出 利用多种算法解决科学问题的时候,记录每种算法在各个采样点下性能指标,比方说Accuracy,如何绘制这些算法的Accuracy的对比分析的可视化呢? 解决方法 第一步:数据导入 # 数据导入 library(readxl) model_accuracy_data <- read_excel('model……


原创 一键更新所有R包
一键更新所有R包 > 感谢 Guangchuang Yu教授的R包(https://github.com/GuangchuangYu) 。 使得更新R如此容易。 使用该编辑器即可得到版式整洁优雅的,各平台统一的文本格式。您无需考虑字体、颜色、行间距等问题,即快速完成排版。 1 - 检查R 各 mirror地址 的下载速……


原创 聚类分析中的可视化
问题提出 当数据没有标签或者有少量标签的时候,我们需要使用聚类分析来发现数据的模式。便于理解聚类分析的结果或者效果,如何对聚类分析做可视化呢? 解决方法 第一步:安装和加载聚类分析R包-factoextra library(pacman) p_load(factoextra) 第二步:导入数据集,采用R语言自带的……


原创 使用R语言为学术出版制作高分辨率的图像
问题提出 我们做学术研究,时常需要把大部分结果做可视化,便于总结,分享和传播。我们如何制造能够符合学术出版的高分辨率图形呢? 解决方法 学术出版物,为图形的格式化有明确的要求,经常用的图形格式:TIFF格式,EPS格式或者PDF格式,其他图形格式不提倡,甚至是不允许,因为存在图形的压缩或者失真。 使用R语言制造高分辨率……


原创 Python人工智能与机器学习知识体系
Python人工智能与机器学习知识体系 1 熟练Python3编程语言,能够利用Python3解决一些数据工程化的问题。 2 具备数据分析和机器学习的理论,熟悉数据科学工作流程。 3 熟练掌握Numpy和Scipy科学计算工具的使用。 4 熟练掌握Pandas数据分析工具的使用。 5 熟练掌握Matplotlib和S……


原创 R数据科学知识体系
R数据科学知识体系。 1 熟悉R语言基础知识 1)R语言是什么?R语言能够做什么?为什么要使用R语言?R语言的优势和劣势? 2)R语言的工作环境构建,R语言的集成开发工具软件RStudio的熟悉和应用。 3)R语言扩展包的管理和使用。 2 熟悉数据科学基本知识和工作流程 1)数据科学的Why-How-What问题。 ……


翻译 作为一名数据分析师,R是怎样影响我的?
作者:Zoe Turner 原文链接: https://nhsrcommunity.com/blog/how-r-changed-me-as-an-analyst/ 我猜想有很多关于R语言的博客和R语言为什么如此伟大呢? 它是免费的。 它是开源的。 它有一个伟大的社区。 它是可重复性的。 你当然可以在Twitte……


翻译 6个令人惊奇的数据科学应用
作者:DATAFLAIR TEAM 原文链接:https://data-flair.training/blogs/data-science-applications/ 数据科学导论 数据科学几乎主宰了当今世界的所有行业。当今世界没有哪个行业不使用数据。因此,数据科学已成为行业的燃料。使用数据科学的行业很多,比如银行业……


原创 机器学习 数据预处理
机器学习 数据预处理(一) >数据分析、机器学习等过程中,对数据进行预处理操作过程是必不可少的。日常工作过程中,几乎八成的时间都是做着数据预处理的工作。 本文从基本的数据处理流程入手,整理对应涉及到的python基本操作代码. 目录 - 读取数据并查看数据相关信息 - 删除多余的列,对将要分析的列重命名 - 运用独热编……


翻译 Drawing Maps with Package GoogleVis
因为赖江山老师翻译的《数量生态学——R语言的应用》真的是看不懂,最近开始看起了英文版的 Numerical Ecology with R,这一本是2018年再版的,比上一版确实实用了太多。所以打算将一些重要的笔记记录在此。 大家可以自己去下载他的数据,或者发邮件(2674102796@qq.com)找我要。 加载包,并……


原创 小白学数据可视化:单变量连续型可视化——直方图
这是我的第5篇数据可视化(data visualization)的文章。 第1篇:[《小白学数据可视化:前言》](http://www.shujuren.org/article/1041.html "《小白学数据可视化:前言》") 第2篇:[《小白学数据可视化:基于R生态的数据可视化工作环境构建》](http://w……


原创 小白学数据可视化:一个ggplot2画图完整实例
这是我的第4篇数据可视化(data visualization)的文章。 第1篇:[《小白学数据可视化:前言》](http://www.shujuren.org/article/1041.html "《小白学数据可视化:前言》") 第2篇:[《小白学数据可视化:基于R生态的数据可视化工作环境构建》](http://w……


翻译 如何为学习,实验和教学生成有意义的人造数据集?
作者:AbdulMajedRaja RS 原文链接: https://www.programmingwithr.com/how-to-generate-meaningful-fake-data-for-learning-experimentation-and-teaching/ 问题描述 关于R,有一件事是很多人的首选……


转载 为什么5G要使用毫米波?
作者:donnar_racky 根据3GPP 38.101协议的规定,5G NR主要使用两段频率:FR1频段和FR2频段。FR1频段的频率范围是450MHz——6GHz,又叫sub 6GHz频段;FR2频段的频率范围是24.25GHz——52.6GHz,人们通常叫它毫米波(mmWave)。 有人认为,毫米波(mmWa……


作者

文章归档

2020年01月
2019年12月
2019年11月
2019年10月
2019年09月
2019年08月
2019年07月
2019年06月
2019年05月
2019年04月
2019年03月
2019年02月