接到同事电话,告知一客户核心业务系统无法使用,然后将远程登录方式详细告知,拿到远程登录方式后第一时间登录到客户业务系统。
1、用户操作系统环境为红帽6.9版本,按照客户描述数据库为rac集群,操作系统版本如下所示:
2、当想要查看数据库具体版本时候,出现如下熟悉报错,报错如图:
3、竟然又是空间问题,直接df -h查看,df -i查看,竟然空间利用率100%,inode节点利用率也是100%,如下图所示:
4、700多万inode用尽了,先解决inode的问题,提示adump无法写入,切换到adump目录下统计文件数为360万余,如图:
5、采用find+rm的方式发现删除的速度还不如写入的速度,inode节点IFREE一直处于十来个,采用rscyn的方式进行删除,如下:
6、在删除inode的同时去查找占用空间大的文件,定位到节点1监听产生的xml文件占用了6.2G,监听日志文件listener.log占用了3.2G,将xml文件删除释放空间,如下图所示:
7、删除了一部分内同以后,再次查看空间,inode和空间都有了空闲,如图:
8、对数据库进行登录,数据库已经可以正常进行登录,通知客户进行业务使用,数据库登录如下:
9、等待adump目录清理,清理完成后进行空间和inode free查看,发现inode free相对合理,但是空间基本上没有释放多少,如图所示:
10、继续查找占用空间过高的文件,定位到是g01目录占用空间较大,如图所示:
11、进一步定位具体导致空间占用过高的原因,最终定位是grid用户下的agentlog和crsdlog过大导致,如图:
12、对所涉及的目录进行清理,空间得到释放,故障问题得到解决。