Datawhale AI春训营 新能源赛道 学习笔记
Datawhale AI春训营 新能源赛道学习笔记
数据学习
数据内容介绍,数据包括两部分:
- 气象训练集以及对应每个发电站的2024年一年的power数据
- 气象测试集,没有对应的power 数据,其预测出的结果作为比赛提交结果。
测试集分析
气象数据数据 包含三个数据源: nwp1 nwp2 nwp3
数据集时间覆盖范围: 2024年1月1日到 2024年12月30日
| 变量 | 描述 | 单位 | 包含数据源 |
|---|---|---|---|
u100 |
100米高度纬向风 | m/s(米/秒) | all |
v100 |
100米高度经向风 | m/s(米/秒) | all |
t2m |
2米气温 | K(开尔文) | all |
tp |
总降水量 | m(米) | all |
tcc |
总云量 | (0 - 1) | all |
sp |
地面气压 | Pa(帕斯卡) | all |
poai |
光伏面板辐照度 | W/m²(瓦/平方米) | all |
ghi |
水平面总辐照度 | W/m²(瓦/平方米) | all |
msl |
海平面气压 | Pa(帕斯卡) | nwp3 |
| 特征工程: 使用u100 和 v100 合成 wind_speed(m/s) |
分析相关性:
-
station1:
以station1,6 为例使用baseline 模型训练,可见不同的发电站,与其发电功率相关的特征不同,同时结合lgbm的importance 确定各个 staion 所使用数据集的特征。
| station | feature |
|---|---|
| 1 | speed |
| 2 | speed |
| 3 | speed |
| 4 | speed |
| 5 | speed |
| 6 | ghi |
| 7 | ghi |
| 8 | ghi |
| 9 | ghi |
| 10 | ghi |
算法LGBM
LGBM 的理论学习
过程
训练对比不同nwp 数据源的准确度
准确的排名:
Try1
- 运行BaseLine: 通过Lgbt importance 筛选特征后进行训练,分数上升0.1
Try2:
调整参数 支持更多子节点和深度
Try3:
尝试你结合不同的nwp 数据进行训练
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Niuzhuoqun's BLOG!