学校SPSS只有12个并发许可,经常排不上号,使用Python也可以进行常见的数据,也很简单。
类库
Numpy
NumPy
(Numerical Python 的缩写)是一个开源的 Python 库,广泛应用于科学计算领域。它提供了对大型多维数组和矩阵的支持,并集成了广泛的数学函数用于这些数组的操作。NumPy
是许多高级数学函数和操作的基础库,也是其他数据分析和机器学习库(如 Pandas、SciPy、Scikit-learn)的基础组件。
安装numpy
pip install numpy
常见计算
以班级成绩统计的分析为例,常常需要:
- 平均分。反映班级的平均水平
- 方差。方差是统计学中的一个重要指标,它用于衡量一组数据的离散程度,即数据与其平均值之间的差异。具体来说,方差定义为每个数据点与数据集平均值的差的平方的平均值。方差越大,表示数据点之间的差异越大;方差越小,表示数据点更接近平均值,即更加集中。
- 标准差。标准差是另一个统计学中常用的指标,它衡量数据的离散程度,类似于方差。不同于方差,标准差是方差的平方根,因此它与原始数据在同一单位上,使得解释和理解更为直观。
方差在理论推导和一些复杂的统计分析中更为常用,而标准差在数据报告和实际应用中更受青睐,因为它提供了一种更直观的理解数据离散程度的方式。
import numpy as np
arr = [1,2,3,4,5]
# 平均值
# 3.0
np.mean(arr)
# 方差
# 2.0
np.var(arr)
# 标准差
# 1.4142135623730951
np.std(arr)
Pandas
Pandas
是一个强大的 Python 数据分析工具库,它提供了高效地处理和分析结构化数据的丰富功能。Pandas
的核心是两个主要的数据结构:DataFrame
和 Series
。
- DataFrame:
- DataFrame 是一种二维表格型数据结构,类似于 Excel 表格或 SQL 数据库中的表。
- 它可以存储不同类型的列,如整数、浮点数、字符串等。
- DataFrame 提供了复杂的索引功能,使得数据的操作和整理变得容易。
- Series:
- Series 是一种一维数组结构,可以被看作是只有一列数据的 DataFrame。
- 每个 Series 都有一个唯一的索引标签,使得数据的定位和处理更加方便。
Pandas
的关键特性包括:
- 数据处理能力:轻松处理丢失数据、插入和删除列、合并数据集等。
- 数据清洗工具:方便地转换数据格式、数据过滤等。
- 数据分析功能:提供数据分组、数据聚合等操作,支持时间序列分析。
- 文件读取与保存:能够读取和保存多种格式的数据,如 CSV、Excel、JSON、HDF5、SQL 数据库等。
- 强大的数据索引和切片:灵活的方式来选取和切割数据。
- 与其他Python库的良好集成:如 NumPy、SciPy、Matplotlib,提供了强大的科学计算能力。
Pandas
是数据科学和数据分析领域中不可或缺的工具之一,无论是在数据预处理、数据清洗、数据分析还是数据可视化方面,都发挥着重要的作用。
安装:
pip install pandas
常见操作
# 读取Excel文件中的’成绩总表'工作簿中的L列。
class2_scores = pd.read_excel('class-2.xlsx', sheet_name='成绩总表', usecols='L')
# 确保分数是数值类型
class2_scores = pd.to_numeric(class2_scores.iloc[:, 0], errors='coerce')
# 去除NaN值
class2_scores = class2_scores.dropna()
# 转换为NumPy数组
class2_scores_array = np.array(class2_scores)
# 计算2班平均值
mean_score = np.mean(class2_scores_array)
# 计算2班方差
var_score = np.var(class2_scores_array)
# 计算2班标准差
std_score = np.std(class2_scores_array)