概念
相关性分析:两个连续变量之间的关系检验。
Pearson相关系数:衡量两个变量的线性相关关系;
Spearman相关系数:衡量两个变量的线性相关关系,部分非线性的也可以衡量;
Kendall相关系数:衡量两个变量之间非线性相关关系;
0.3以上就是有相关性了,0.3~0.5就是有点强的,0.5以上就是很强的。
下面是分类变量,研究非连续的变量
卡方检验:两个分类变量的分析,是否相关,不能表示强弱。
Python例子
连续变量
代码如下:
- from statsmodels.stats.anova import anova_lm
- from statsmodels.formula.api import ols
- import pandas as pd
- from scipy import stats
-
- df = pd.DataFrame(
- [
- [20, 6000], [18, 6500], [17, 4500], [16, 3000], [21, 8000], [23, 18000],
- [30, 25000], [40, 18000], [55, 10000], [35, 19000], [26, 15000], [27, 8000]
- ],
- columns=["age", "income"]
- )
-
-
- if __name__ == '__main__':
-
- print(df[['age', 'income']].corr(method='pearson'), "\n")
- print(df[['age', 'income']].corr(method='spearman'), "\n")
- print(df[['age', 'income']].corr(method='kendall'), "\n")
- print(stats.chi2_contingency(df));
-
- pass
运行截图如下: