Datawhale AI春训营 新能源赛道学习笔记

数据学习

数据内容介绍,数据包括两部分:

  1. 气象训练集以及对应每个发电站的2024年一年的power数据
  2. 气象测试集,没有对应的power 数据,其预测出的结果作为比赛提交结果。

测试集分析

气象数据数据 包含三个数据源: nwp1 nwp2 nwp3
数据集时间覆盖范围: 2024年1月1日到 2024年12月30日

变量 描述 单位 包含数据源
u100 100米高度纬向风 m/s(米/秒) all
v100 100米高度经向风 m/s(米/秒) all
t2m 2米气温 K(开尔文) all
tp 总降水量 m(米) all
tcc 总云量 (0 - 1) all
sp 地面气压 Pa(帕斯卡) all
poai 光伏面板辐照度 W/m²(瓦/平方米) all
ghi 水平面总辐照度 W/m²(瓦/平方米) all
msl 海平面气压 Pa(帕斯卡) nwp3
特征工程: 使用u100 和 v100 合成 wind_speed(m/s)

分析相关性

  • station1:

    以station1,6 为例使用baseline 模型训练,可见不同的发电站,与其发电功率相关的特征不同,同时结合lgbm的importance 确定各个 staion 所使用数据集的特征。

station feature
1 speed
2 speed
3 speed
4 speed
5 speed
6 ghi
7 ghi
8 ghi
9 ghi
10 ghi

算法LGBM

LGBM 的理论学习

过程

训练对比不同nwp 数据源的准确度
准确的排名:

Try1

  1. 运行BaseLine: 通过Lgbt importance 筛选特征后进行训练,分数上升0.1

Try2:

调整参数 支持更多子节点和深度

Try3:
尝试你结合不同的nwp 数据进行训练