气象站点数据结构化处理-CFANZ编程社区

最近需要处理一批气象站点数据，数据是小时尺度的降水数据，时间跨度长，区域范围大，且由于拿到的气象站点是按时间为文件夹进行存储，举例即按照2022020119小时为文件单位存储所有站点该小时的降水量。后面研究需要针对每个站点的历时降水量进行分析，所以编写了小脚本进行数据的结构化处理。

import os
import pandas as pd


# 获取气象站点站号信息
df = pd.read_csv(r'E:\2020121123_prcp.txt', sep='\s+', header=None)
stations_num = df.loc[:,0]

# 读取历史数据文件
path = r'E:\total'
targetFilePath = r'E:\Pre'
files = os.listdir(path)    # 获取站点数据的文件信息
files.reverse()    #正序/逆序存储

# 通过站号遍历历史站点数据，将数据按照站点进行存储。
for station in stations_num:

    stationDir = targetFilePath + "\\" + str(station)

    with open(stationDir,'a+', newline='') as f:

        for file in files:
            sourceDir = path + '\\' + str(file)

            try:

                date = file.split(sep='_')[0]
                sourceFile = pd.read_csv(sourceDir, sep='\s+', header=None)
                line = sourceFile[sourceFile[0] == station]
                line.insert(loc=0, column='date', value=date)

                line.to_csv(f, sep='\t', header=False, index=False, na_rep='')

            except:

                info = pd.DataFrame([[date,'null','null','null','null','null','null']], columns=list(range(0,7)))
                info.to_csv(f, sep='\t', header=False, index=False)

            continue