存储注意事项:
-
存储资源不仅包括磁盘限额(Block Limits),也包括文件数目(File Limits)
-
存储磁盘限额超额,必定会影响【文件操作】和【作业提交和运行】
-
超额之后,请删除废弃数据和旧数据,或联系商务洽谈存储收费扩容
-
组磁盘限额超额时,会影响用户磁盘限额使用
存储资源不仅包括磁盘限额(Block Limits),也包括文件数目(File Limits)
存储磁盘限额超额,必定会影响【文件操作】和【作业提交和运行】
超额之后,请删除废弃数据和旧数据,或联系商务洽谈存储收费扩容
组磁盘限额超额时,会影响用户磁盘限额使用
超算平台有登录节点、计算节点之分;程序、数据等文件要放在 online1 或者 GPFS 目录,计算节点才能访问到
登录节点为用户提供一个登陆系统的平台,用户可以通过internet网络登录VPN,然后通过ssh终端登录到登陆节点上
登录节点用户可以进行软件编译与调试、环境变量配置作业提交、文件编辑、结果查看等操作
登录节点禁止用户直接运行计算程序
登录节点有三个 psn002 psn004 psn010,一般情况下重复登录三次可切换到另外一个登录节点
计算节点本身没有本地硬盘,挂载共享存储,具备软件运行所需的运行环境
用户程序、数据等文件要放在 online1 或者 GPFS 目录,计算节点才能访问到
报错类型:SIZE MISMATCH: namelist ide,jde,num_metgrid_levels= 100 124 40; input data ide,jde,num_metgrid_levels= 100 124 27
特别注意:expr测试队列运行作业限制1小时,超时被杀
注:首先查看rsl.error.xx和rsl.out.xx日志,里面会有详细的报错信息
原因:namelist.wps和namelist.input中的num_metgrid_levels设置不一致
报错类型:namelist : num_metgrid_soil_levels = 4,input files : NUM_METGRID_SOIL_LEVELS = 2 (from met_em files).
特别注意:expr测试队列运行作业限制1小时,超时被杀
注:首先查看rsl.error.xx和rsl.out.xx日志,里面会有详细的报错信息
原因:生成的met_xx资料(土壤层数)SOIL_LEVELS和namelist.input 里面的不匹配,在namelist.input中修改num_metgrid_soil_levels = 2
报错类型:RIBX never exceeds RIC, RIB(i,kte) = NaN THETAV(i,1) = NaN MOL= NaN TCONV = 0.0000000E+00 WST = NaN KMIX = 1 UST = NaN TST = NaN U,V = NaN NaN I,J= 138 1
特别注意:expr测试队列运行作业限制1小时,超时被杀
注:首先查看rsl.error.xx和rsl.out.xx日志,里面会有详细的报错信息
原因:溢出,namelist.input中时间步长time_step改小
报错类型:Could not find matching time in input file
特别注意:expr测试队列运行作业限制1小时,超时被杀
注:首先查看rsl.error.xx和rsl.out.xx日志,里面会有详细的报错信息
原因:namelist.wps和namelist.input里的时间设置没有一致
报错类型:dz above fixed eta levels is too large
特别注意:expr测试队列运行作业限制1小时,超时被杀
注:首先查看rsl.error.xx和rsl.out.xx日志,里面会有详细的报错信息
原因:namelist.input中的e_vert设置不对,需要与num_metgrid_levels一致
报错类型:error while loading shared libraries: libnetcdff.so.5: cannot open shared object file: No such file or directory
特别注意:expr测试队列运行作业限制1小时,超时被杀
注:首先查看rsl.error.xx和rsl.out.xx日志,里面会有详细的报错信息
原因:查看netcdf的环境变量是否配置正确
报错类型:errors while reading one or more namelists from namelist.input
特别注意:expr测试队列运行作业限制1小时,超时被杀
注:首先查看rsl.error.xx和rsl.out.xx日志,里面会有详细的报错信息
原因:namelist.input中有错,请仔细检查下
查询队列有足够节点,但提交WRF作业报错:job submit failed, ret = -19, reason: No enough compute nodes
原因:用户使用国产神威平台的wrf,但是使用的是intel平台的提交命令,须改用国产平台的wrf提交命令
注:国产神威平台提交WRF命令:bsub -q q_sw_expr -n 1(核数) -share_size 6000 -host_stack 1024 -m 1 -b -cgsp 64 ./wrf.exe
注:商用intel平台提交WRF命令:bsub –q q_x86_share(队列名)-n 1(核数) ./geogrid.exe