数据注意点:
有用增益数据筛选

任务和主题

AI新能源功率预报:根据历史发电功率数据和对应时段多类别气象预测数据,实现次日零时起到未来24小时逐15分钟级新能源场站发电功率预测。

比赛数据

1.气象数据
比赛输入数据来自三个不同的气象预报数据,数据格式为nc,共8个变量,需要注意气象源NWP_2的变量与另外两个稍有不同。气象变量说明见下文。每个文件是第二天北京时间0点开始的未来24小时气象预报,时间间隔1小时,文件名的日期表示预报发布日期,如20240101.nc是2024年1月1日发布的,对1月2日的预报。每个输入文件有5个维度,time,channel,hour,lat,lon。
time表示数据第一个时刻,为世界时;channel为变量,共8维;hour为从起始时间到预报时间的时间间隔,数值为0~23;lat为纬度,数值从小到大为从北向南排列;lon为经度,数值从小到大为从西向东排列。这里经纬度数值仅代表相对关系,中心点为离场站最近的点。
参赛队伍可以不使用全部气象源的全部变量做为输入。

2.场站实发功率
比赛目标数据来自10个新能源场站的归一化处理后的实发功率,其中包含5个风电场站和5个光伏场站。编号1-5为风电场,6-10为光伏电场。数据时间为北京时间,数据时间间隔为15分钟。需要注意数据中偶有空值、死值等异常值。

气象变量说明:

气象源1(NWP_1)、气象源3(NWP_3): [u100v100t2mtptccsppoaighi], 气象源2(NWP_2): [u100v100t2mtptcc,msl,poai,ghi]

变量 描述 单位
u100 100米高度纬向风 m/s(米/秒)
v100 100米高度经向风 m/s(米/秒)
t2m 2米气温 K(开尔文)
tp 总降水量 m(米)
tcc 总云量 (0 - 1)
sp 地面气压 Pa(帕斯卡)
poai 光伏面板辐照度 W/m²(瓦/平方米)
ghi 水平面总辐照度 W/m²(瓦/平方米)
msl 海平面气压 Pa(帕斯卡)

1,1-5的风电项目,影响最大的是风速和气压,其次是风向。6-10光伏项目影响最大的是倾斜面辐照poai和温度t2m。

2,气象数据的网格,一般会远大于项目面积。在目前没有地理数据的情况下,取一个居中点的数据即可。

3,这个项目的参数量很少,且大多可以从原理上判断与发电量的关联性。因此可以直接用拟合(机器学习的价值有限)。提高准确率,可能更依赖于数据清洗和预处理。
初赛训练集和测试集:

数据集 时间范围 空间范围 时间分辨率
TrainA 20240101 ~ 20241231 场站周边 11x11 个格点 1h
TestA 20250101 ~ 20250228 场站周边 11x11 个格点 1h

复赛训练集和测试集:

数据集 时间范围 空间范围 时间分辨率
TrainB 20240101 ~ 20250228 场站周边 11x11 个格点 1h
TestB 20250301 ~ 20250430 场站周边 11x11 个格点 1h

u100,v100 计算风速和风向

![[Pasted image 20250412141327.png]]

原始的数据

csv 格式输出
![[Pasted image 20250412141423.png]]

评价指标

![[Pasted image 20250412141640.png]]

![[Pasted image 20250412141816.png]]

限电不考虑。
负值置零。

数据预处理

数据描述

当前的数据状况
每个小时的 chanle 对应的值

  1. ghi:全球水平辐照度(Global Horizontal Irradiance),单位通常是瓦特每平方米 (W/m²)。
  2. poai:平面外接收到的总辐照度(Plane of Array Irradiance),这通常用于光伏系统设计中,表示安装在特定角度的光伏面板接收到的太阳辐射量。
  3. sp:表面压力(Surface Pressure),单位可能是帕斯卡 (Pa)。
  4. t2m:2米处气温(Temperature at 2 meters above the surface),单位是开尔文 (K) 或摄氏度 (°C),从值上看这里应该是开尔文。
  5. tcc:总云量(Total Cloud Cover),范围一般为0到1,表示天空被云覆盖的比例。
  6. tp:总降水量(Total Precipitation),单位可能是毫米 (mm)。
  7. u100 和 v100:分别是纬向和径向的风速分量,在100米高度上测量得到,单位米每秒 (m/s)。

数据清洗

  1. power 数据存在无效数据,负数置为0
  2. u100 v100 计算出风速

CR=(11ni=1n(PM,iPP,imax(PM,i0.2))2)100%C_{R}=\left(1-\sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(\frac{P_{M, i}-P_{P, i}}{\max \left(P_{M, i} 0.2\right)}\right)^{2}}\right) * 100 \%

式中,P(​M,i)为实际功率,P(P,i)为预测功率,n 为一天内的时段数,即 n=96。(注:若未成功生成预测结果,则预测准确率按“0”计)
考虑实际数据质量问题,计算精度会对异常数据(缺失、数值异常等)进行剔除。

Cf=1NdCR,dNdC_{f}=\frac{\sum_{1}^{N_{d}} C_{R, d}}{N_{d}}

式中Nd 为预测天数,C(R,d) 为d日预测精度,场站精度Cf​为所有预测日的精度平均值。

Cf=1NdCR,dNdC_{f}=\frac{\sum_{1}^{N_{d}} C_{R, d}}{N_{d}}

式中Nf为统计场站数,Cf为单场站精度,最终精度是所有场站精度的平均值。

目前的训练流程

提取 train test target 数据 null 数据为0

1-5 号 风能源

train 特征使用

变量 描述 单位
wind_speed 风速 m/s(米/秒)
wind_direction 风向
t2m 2米气温 K(开尔文)
tp 总降水量 m(米)
tcc 总云量 (0 - 1)
sp 地面气压 Pa(帕斯卡)
删除 ‘poai’,‘ghi’ ,lgbm 训练中1-5站依赖度低

训练输入train,test,targets,YUCE

6-10 号站 光能

parquent