关键词搜索

源码搜索 ×
×

Python数据分析实战:降雨量统计分析报告分析

发布2021-01-20浏览2627次

详情内容

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于菜J学Python ,作者小小明

最近遇到一个有点烧脑的需求,其实也不算烧python基础教程脑,主要是判断条件过多,对于我这种记忆力差,内存小的人来说容易出现内存溢出导致大脑宕机。也可能是因为我还没有找到能减小大脑内存压力的方法。

先看看需求吧:
在这里插入图片描述

Python数据分析实战:降雨量统计分析报告分析

主要就是要根据左侧的表格自动生成右侧的Word统计报告,实际的各种可能性情况远比图中展示的要更加复杂。

好了,直接开始干代码吧!

1数据读取

import pandas as pd

df = pd.read_csv("11月份数据.csv", encoding='gbk')
# 当前统计月份
month = 11
df = df.query('月份==@month')
df.head(10)

    预览数据:

    Python数据分析实战:降雨量统计分析报告分析

    在这里插入图片描述

    2异常数据过滤

    查看缺失值数量:

    pd.isnull(df).sum()

    结果:

    区域          0
    月份          0
    降雨量(mm)     0
    降雨距平(mm)    1
    观测站         0
    dtype: int64
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    仅一个缺失值数据,可直接删除:

    df.dropna(inplace=True)
    
    • 1

    3计算观测站降雨量相对往年的变化

    计算降雨量比往年高,跟往年比无变化,以及比往年低的次数分别是多少:

    rainfall_high = df.eval('`降雨距平(mm)` > 0').value_counts().get(True, 0)
    rainfall_equal = df.eval('`降雨距平(mm)` == 0').value_counts().get(True, 0)
    rainfall_low = df.eval('`降雨距平(mm)` < 0').value_counts().get(True, 0)
    print(rainfall_high, rainfall_equal, rainfall_low)
    
    13 1 18
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    上面的结果中rainfall_high表示降雨量比往年平均水平高的次数,rainfall_equal表示降雨量比往年平均水平持平的次数,rainfall_low表示降雨量比往年平均水平低的次数。

    于是分情况讨论生成第一段的报告:

    p1 = f"{month}月份"
    if rainfall_low == 0 or rainfall_high == 0:
        if rainfall_equal != 0:
            p1 += f"除{rainfall_equal}个观测站降雨量较往年无变化外,"
        if rainfall_high == 0:
            p1 += f"各气象观测站降雨量较往年均偏低。"
        elif rainfall_low == 0:
            p1 += f"各气象观测站降雨量较往年均偏高。"
    else:
        #  10%以内差异认为是持平
        if rainfall_high > rainfall_low*1.1:
            p1 += f"大部分气象观测站降雨量较往年偏高。"
        elif rainfall_low > rainfall_high*1.1:
            p1 += f"大部分气象观测站降雨量较往年偏低。"
        else:
            p1 += f"各气象观测站降雨量较往年整体持平。"
    p1
    
      8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17

    结果:

    ‘11月份大部分气象观测站降雨量较往年偏低。’

    4计算各区域降雨量的极值

    再生成第二段的报告:

    p2 = “”
    t = df[‘降雨量(mm)’]
    p2 += f"各区域降雨量在{t.min()}~{t.max()}mm之间,其中{df.loc[t.argmax(), ‘区域’]}区域的降雨量最大,为{t.max()}mm。"
    p2

    结果:

    ‘各区域降雨量在0.0~16.0mm之间,其中51a45区域的降雨量最大,为16.0mm。’

    5分观测站统计

    让我脑袋疼的地方就是从这里的代码开始的,后面还有更复杂的需求就不公布了。

    对每个观测站分别统计哪些区域偏高,哪些区域持平,哪些区域偏低:

    p3s = []
    for station, tmp in df.groupby('观测站'):
        t = tmp['降雨量(mm)']
        p3 = f"各区域降雨量在{t.min()}~{t.max()}mm之间,"
        rainfall_high_mask = tmp.eval('`降雨距平(mm)` > 0')
        rainfall_equal_mask = tmp.eval('`降雨距平(mm)` == 0')
        rainfall_low_mask = tmp.eval('`降雨距平(mm)` < 0')
    
        rainfall_high = rainfall_high_mask.value_counts().get(True, 0)
        rainfall_equal = rainfall_equal_mask.value_counts().get(True, 0)
        rainfall_low = rainfall_low_mask.value_counts().get(True, 0)
    #     print(rainfall_high, rainfall_equal, rainfall_low)
    
        if rainfall_low == 0 or rainfall_high == 0:
            if rainfall_equal != 0:
                p3 += '除'
                p3 += '、'.join(tmp.loc[rainfall_equal_mask, '区域']+'区域')
                p3 += "降雨量较往年无变化外,"
            if rainfall_high == 0:
                p3 += f"各区域降雨量均较往年偏低"
            elif rainfall_low == 0:
                p3 += f"各区域降雨量均较往年偏高"
            t = tmp['降雨距平(mm)'].abs()
            p3 += f"{t.min()}~{t.max()}mm;"
        else:
            if rainfall_equal != 0:
                p3 += '除'
                p3 += '、'.join(tmp.loc[rainfall_equal_mask, '区域']+'区域')
                p3 += "降雨量较往年无变化,"
            #  10%以内差异认为是持平
            if rainfall_high > rainfall_low*1.1:
                if rainfall_equal == 0:
                    p3 += '除'
                p3 += '、'.join(tmp.loc[rainfall_low_mask, '区域']+'区域')
                p3 += "降雨量较往年偏低"
                t = tmp.loc[rainfall_low_mask, '降雨距平(mm)'].abs()
                if t.shape[0] > 1:
                    p3 += f"{t.min()}~{t.max()}mm"
                else:
                    p3 += f"{t.min()}mm"
                p3 += "外,"
                t = tmp.loc[rainfall_high_mask, '降雨距平(mm)'].abs()
                p3 += f"其余各区域降雨量较往年偏高{t.min()}~{t.max()}mm;"
            elif rainfall_low > rainfall_high*1.1:
                if rainfall_equal == 0:
                    p3 += '除'
                p3 += '、'.join(tmp.loc[rainfall_high_mask, '区域']+'区域')
                p3 += "降雨量较往年偏高"
                t = tmp.loc[rainfall_high_mask, '降雨距平(mm)'].abs()
                if t.shape[0] > 1:
                    p3 += f"{t.min()}~{t.max()}mm"
                else:
                    p3 += f"{t.min()}mm"
                p3 += "外,"
                t = tmp.loc[rainfall_low_mask, '降雨距平(mm)'].abs()
                p3 += f"其余各区域降雨量较往年偏低{t.min()}~{t.max()}mm;"
            else:
                if rainfall_equal != 0:
                    p3 = p3[:-1]+'外,'
                p3 += f"各区域降雨量较往年偏高和偏低的数量持平,其中"
                p3 += '、'.join(tmp.loc[rainfall_low_mask, '区域']+'区域')
                p3 += "降雨量较往年偏低"
                t = tmp.loc[rainfall_low_mask, '降雨距平(mm)'].abs()
                if t.shape[0] > 1:
                    p3 += f"{t.min()}~{t.max()}mm,"
                else:
                    p3 += f"{t.min()}mm,"
                p3 += '、'.join(tmp.loc[rainfall_high_mask, '区域']+'区域')
                p3 += "降雨量较往年偏高"
                t = tmp.loc[rainfall_high_mask, '降雨距平(mm)'].abs()
                if t.shape[0] > 1:
                    p3 += f"{t.min()}~{t.max()}mm;"
                else:
                    p3 += f"{t.min()}mm;"
        p3s.append([station, p3])
    p3s[-1][-1] = p3s[-1][-1][:-1]+"。"
    p3s
    
      8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67
    • 68
    • 69
    • 70
    • 71
    • 72
    • 73
    • 74
    • 75
    • 76
    • 77

    可能是我还没有想出较好的封装方式导致代码变得这c#教程么复杂,如果有巧妙解决这个问题的朋友,希望能够加菜J学Python交流群一起探讨。

    6将组织好的文本写入到word中

    Word模板文件docxtemplate.docx的内容:

    一、{{ month }}月各气象观测站降雨量实况
    (一)降水
    {{ p1 }}
    {{ p2 }}
    {%p for station,p3 in p3s %}
    {{ station }}:{{ p3 }}
    {%p endfor %}

    即:

    Python数据分析实战:降雨量统计分析报告分析
    在这里插入图片描述

    Python渲染代码:

    from docxtpl import DocxTemplate
    
    tpl = DocxTemplate("docxtemplate.docx")
    context = {
        'month': month,
        'p1': p1,
        'p2': p2,
        'p3s': p3s,
    }
    tpl.render(context)
    tpl.save("11月降雨量报告.docx")
    
      8
    • 9
    • 10
    • 11

    执行完毕,得到Word统计分析报告:
    在这里插入图片描述

    Python数据分析实战:降雨量统计vb.net教程
    分析报告分析

    相关技术文章

    点击QQ咨询
    开通会员
    返回顶部
    ×
    微信扫码支付
    微信扫码支付
    确定支付下载
    请使用微信描二维码支付
    ×

    提示信息

    ×

    选择支付方式

    • 微信支付
    • 支付宝付款
    确定支付下载