无题
数据注意点:
有用增益数据筛选
任务和主题
AI新能源功率预报:根据历史发电功率数据和对应时段多类别气象预测数据,实现次日零时起到未来24小时逐15分钟级新能源场站发电功率预测。
比赛数据
1.气象数据
比赛输入数据来自三个不同的气象预报数据,数据格式为nc,共8个变量,需要注意气象源NWP_2的变量与另外两个稍有不同。气象变量说明见下文。每个文件是第二天北京时间0点开始的未来24小时气象预报,时间间隔1小时,文件名的日期表示预报发布日期,如20240101.nc是2024年1月1日发布的,对1月2日的预报。每个输入文件有5个维度,time,channel,hour,lat,lon。
time表示数据第一个时刻,为世界时;channel为变量,共8维;hour为从起始时间到预报时间的时间间隔,数值为0~23;lat为纬度,数值从小到大为从北向南排列;lon为经度,数值从小到大为从西向东排列。这里经纬度数值仅代表相对关系,中心点为离场站最近的点。
参赛队伍可以不使用全部气象源的全部变量做为输入。
2.场站实发功率
比赛目标数据来自10个新能源场站的归一化处理后的实发功率,其中包含5个风电场站和5个光伏场站。编号1-5为风电场,6-10为光伏电场。数据时间为北京时间,数据时间间隔为15分钟。需要注意数据中偶有空值、死值等异常值。
气象变量说明:
气象源1(NWP_1)、气象源3(NWP_3): [u100, v100, t2m, tp, tcc, sp, poai, ghi], 气象源2(NWP_2): [u100, v100, t2m, tp, tcc,msl,poai,ghi]
| 变量 | 描述 | 单位 |
|---|---|---|
u100 |
100米高度纬向风 | m/s(米/秒) |
v100 |
100米高度经向风 | m/s(米/秒) |
t2m |
2米气温 | K(开尔文) |
tp |
总降水量 | m(米) |
tcc |
总云量 | (0 - 1) |
sp |
地面气压 | Pa(帕斯卡) |
poai |
光伏面板辐照度 | W/m²(瓦/平方米) |
ghi |
水平面总辐照度 | W/m²(瓦/平方米) |
msl |
海平面气压 | Pa(帕斯卡) |
1,1-5的风电项目,影响最大的是风速和气压,其次是风向。6-10光伏项目影响最大的是倾斜面辐照poai和温度t2m。
2,气象数据的网格,一般会远大于项目面积。在目前没有地理数据的情况下,取一个居中点的数据即可。
3,这个项目的参数量很少,且大多可以从原理上判断与发电量的关联性。因此可以直接用拟合(机器学习的价值有限)。提高准确率,可能更依赖于数据清洗和预处理。
初赛训练集和测试集:
| 数据集 | 时间范围 | 空间范围 | 时间分辨率 |
|---|---|---|---|
| TrainA | 20240101 ~ 20241231 | 场站周边 11x11 个格点 | 1h |
| TestA | 20250101 ~ 20250228 | 场站周边 11x11 个格点 | 1h |
复赛训练集和测试集:
| 数据集 | 时间范围 | 空间范围 | 时间分辨率 |
|---|---|---|---|
| TrainB | 20240101 ~ 20250228 | 场站周边 11x11 个格点 | 1h |
| TestB | 20250301 ~ 20250430 | 场站周边 11x11 个格点 | 1h |
u100,v100 计算风速和风向
![[Pasted image 20250412141327.png]]
原始的数据
csv 格式输出
![[Pasted image 20250412141423.png]]
评价指标
![[Pasted image 20250412141640.png]]
![[Pasted image 20250412141816.png]]
限电不考虑。
负值置零。
数据预处理
数据描述
当前的数据状况
每个小时的 chanle 对应的值
ghi:全球水平辐照度(Global Horizontal Irradiance),单位通常是瓦特每平方米 (W/m²)。poai:平面外接收到的总辐照度(Plane of Array Irradiance),这通常用于光伏系统设计中,表示安装在特定角度的光伏面板接收到的太阳辐射量。sp:表面压力(Surface Pressure),单位可能是帕斯卡 (Pa)。t2m:2米处气温(Temperature at 2 meters above the surface),单位是开尔文 (K) 或摄氏度 (°C),从值上看这里应该是开尔文。tcc:总云量(Total Cloud Cover),范围一般为0到1,表示天空被云覆盖的比例。tp:总降水量(Total Precipitation),单位可能是毫米 (mm)。u100和v100:分别是纬向和径向的风速分量,在100米高度上测量得到,单位米每秒 (m/s)。
数据清洗
- power 数据存在无效数据,负数置为0
- u100 v100 计算出风速
式中,P(M,i)为实际功率,P(P,i)为预测功率,n 为一天内的时段数,即 n=96。(注:若未成功生成预测结果,则预测准确率按“0”计)
考虑实际数据质量问题,计算精度会对异常数据(缺失、数值异常等)进行剔除。
式中Nd 为预测天数,C(R,d) 为d日预测精度,场站精度Cf为所有预测日的精度平均值。
式中Nf为统计场站数,Cf为单场站精度,最终精度是所有场站精度的平均值。
目前的训练流程
提取 train test target 数据 null 数据为0
1-5 号 风能源
train 特征使用
| 变量 | 描述 | 单位 |
|---|---|---|
| wind_speed | 风速 | m/s(米/秒) |
| wind_direction | 风向 | 度 |
t2m |
2米气温 | K(开尔文) |
tp |
总降水量 | m(米) |
tcc |
总云量 | (0 - 1) |
sp |
地面气压 | Pa(帕斯卡) |
| 删除 ‘poai’,‘ghi’ ,lgbm 训练中1-5站依赖度低 |
训练输入train,test,targets,YUCE
6-10 号站 光能
parquent