우분투 20.04, 22.04에서 CPU100%, 메모리100% 질문

안녕하세요. 우분투를 설치해서 사용중입니다.
사용 용도는 딥러닝 GPU 학습용 서버로 사용중입니다.
최근에 발생한 문제에 대하여 질문이 있어 처음으로 작성해봅니다.

처음에는 20.04버전을 설치하여 딥러닝 학습을 진행했었는데
어느 순간 CPU100%,메모리100%가 되어있었습니다. 제가 안본사이에 이미 reboot가 진행됐었습니다. 문제의 원인을 찾지 못하여 우분투 22.04버전을 재설치해보았습니다. 하드는 그대로 놔두구요.

22.04버전으로 다시 학습 환경을 구성한뒤에 학습을 진행했을때, 5일정도 문제가 없었습니다. 그런데 7일차쯤에 CPU가 먼저 100%로 도달했습니다. 그뒤로 2일이 더 지나자 메모리가 100%로 도달했습니다. GPU는 학습이 끝나고 큰 사용량은 없습니다.

우분투 자제 문제는 아닌것 같은데 원인을 모르겠습니다. 동일한 코드로 다른 GPU서버(20.04)에서 실행했을 때는 이런 문제는 없었습니다.

아래는 추가 정보입니다.
GPU: A6000 48G ; 4ea
CPU: Intel Xeon silver 4410T; 20core
Mem: 125G
사용언어: 파이썬 3.9.18
가상환경: 아나콘다 23.7.4
GPU컨트롤: Checkpoint, Gradscaler 사용
cpu and memory


1개의 좋아요