Python处理数据

学校SPSS只有12个并发许可，经常排不上号，使用Python也可以进行常见的数据，也很简单。

类库

Numpy

NumPy（Numerical Python 的缩写）是一个开源的 Python 库，广泛应用于科学计算领域。它提供了对大型多维数组和矩阵的支持，并集成了广泛的数学函数用于这些数组的操作。NumPy 是许多高级数学函数和操作的基础库，也是其他数据分析和机器学习库（如 Pandas、SciPy、Scikit-learn）的基础组件。

安装numpy

pip install numpy

常见计算

以班级成绩统计的分析为例，常常需要：

平均分。反映班级的平均水平
方差。方差是统计学中的一个重要指标，它用于衡量一组数据的离散程度，即数据与其平均值之间的差异。具体来说，方差定义为每个数据点与数据集平均值的差的平方的平均值。方差越大，表示数据点之间的差异越大；方差越小，表示数据点更接近平均值，即更加集中。
标准差。标准差是另一个统计学中常用的指标，它衡量数据的离散程度，类似于方差。不同于方差，标准差是方差的平方根，因此它与原始数据在同一单位上，使得解释和理解更为直观。

方差在理论推导和一些复杂的统计分析中更为常用，而标准差在数据报告和实际应用中更受青睐，因为它提供了一种更直观的理解数据离散程度的方式。

import numpy as np

arr = [1,2,3,4,5]

# 平均值
# 3.0
np.mean(arr)

# 方差
# 2.0
np.var(arr)

# 标准差
# 1.4142135623730951
np.std(arr)

Pandas

Pandas 是一个强大的 Python 数据分析工具库，它提供了高效地处理和分析结构化数据的丰富功能。Pandas 的核心是两个主要的数据结构：DataFrame 和 Series。

DataFrame：
- DataFrame 是一种二维表格型数据结构，类似于 Excel 表格或 SQL 数据库中的表。
- 它可以存储不同类型的列，如整数、浮点数、字符串等。
- DataFrame 提供了复杂的索引功能，使得数据的操作和整理变得容易。
Series：
- Series 是一种一维数组结构，可以被看作是只有一列数据的 DataFrame。
- 每个 Series 都有一个唯一的索引标签，使得数据的定位和处理更加方便。

Pandas 的关键特性包括：

数据处理能力：轻松处理丢失数据、插入和删除列、合并数据集等。
数据清洗工具：方便地转换数据格式、数据过滤等。
数据分析功能：提供数据分组、数据聚合等操作，支持时间序列分析。
文件读取与保存：能够读取和保存多种格式的数据，如 CSV、Excel、JSON、HDF5、SQL 数据库等。
强大的数据索引和切片：灵活的方式来选取和切割数据。
与其他Python库的良好集成：如 NumPy、SciPy、Matplotlib，提供了强大的科学计算能力。

Pandas 是数据科学和数据分析领域中不可或缺的工具之一，无论是在数据预处理、数据清洗、数据分析还是数据可视化方面，都发挥着重要的作用。

安装：

pip install pandas

常见操作

# 读取Excel文件中的’成绩总表'工作簿中的L列。
class2_scores = pd.read_excel('class-2.xlsx', sheet_name='成绩总表', usecols='L')

# 确保分数是数值类型
class2_scores = pd.to_numeric(class2_scores.iloc[:, 0], errors='coerce')

# 去除NaN值
class2_scores = class2_scores.dropna()

# 转换为NumPy数组
class2_scores_array = np.array(class2_scores)


# 计算2班平均值
mean_score = np.mean(class2_scores_array)

# 计算2班方差
var_score = np.var(class2_scores_array)

# 计算2班标准差
std_score = np.std(class2_scores_array)