您的位置:

R语言数据分析案例详解

一、数据获取

数据获取是进行数据分析的第一步,数据可以从各种渠道获取:数据库、文件等。以销售数据为例,我们可以从公司的数据库中获取销售数据,也可以通过Excel表格或CSV文件导入R环境中。

1.从文件中读取数据


#读取Excel表格
library(openxlsx)
sales_data <- read.xlsx("sales.xlsx", sheet = "Sheet1")

#读取CSV文件
sales_data <- read.csv("sales.csv")

2.从数据库中读取数据


#连接数据库
library(RMySQL)
con <- dbConnect(MySQL(), user= "root", password = "123456",
               dbname = "sales_db", host = "localhost")

#读取数据
sales_data <- dbGetQuery(con, "SELECT * FROM sales")
dbDisconnect(con)

二、数据清洗

数据清洗是指对数据进行预处理和数据清洗,如数据去重、处理缺失值等。在实际应用中,由于数据来源不同,数据清洗的方法也不同。

1.处理缺失值

缺失值是指数据集中出现的某些数据缺失的情况。在R语言中,NA代表缺失值。我们可以通过R语言的内置函数is.na()来检查缺失值,并用mean()函数、median()函数等方法进行填充。


#检查缺失值
sum(is.na(sales_data))

#填充缺失值
sales_data[is.na(sales_data)] <- mean(sales_data, na.rm = TRUE)

2.去重

在进行数据分析时,数据中可能存在重复数据。我们可以使用R语言内置函数duplicated()和unique()来检查和删除重复的数据。


#检查重复
sum(duplicated(sales_data))

#删除重复
sales_data <- unique(sales_data)

三、数据分析

通过数据清洗,我们得到了一份干净的数据集。接下来,我们可以使用各种数据分析方法来探索数据、找出规律。

1.数据可视化

数据可视化是非常有用的数据分析手段。我们可以使用ggplot2包来绘制各种图表:散点图、柱状图、饼图等等,以便更好地理解数据的分布和趋势。


#导入ggplot2包
library(ggplot2)

#绘制散点图
ggplot(sales_data, aes(x = sales_amount, y = profit)) + 
  geom_point()

#绘制柱状图
ggplot(sales_data, aes(x = product_type, y = sales_amount)) + 
  geom_bar(stat = "identity")

#绘制饼图
ggplot(sales_data, aes(x = "", fill = region)) + 
  geom_bar(width=1) + 
  coord_polar(theta = "y")

2.回归分析

回归分析可以用来预测因变量与自变量的关系。我们可以使用R语言内置函数lm()来进行回归分析,并使用summary()函数来显示分析报告。


#简单线性回归
model <- lm(profit ~ sales_amount, data = sales_data)
summary(model)

#多元线性回归
model <- lm(profit ~ sales_amount + product_type + region, data = sales_data)
summary(model)

四、结论

通过数据获取、数据清洗和数据分析,我们可以更好地理解数据、找出规律、作出预测,并使用各种技术来帮助我们得出正确的结论。