Intel NIC를 사용하는 서버에 Ubuntu환경에서 네트워크 Rx drop이 지속 발생합니다

가. 운영체제 : Ubuntu 20.04.04 LTS (18.x 에서도 동일하게 발생함.)

나. H/W정보
SuperMicro 740GP-TNRT 에 장착된 NIC정보는 아래와 같습니다.
Intel NIC로 구성된 서버에 우분투 OS설치시 network Rx drop이 지속적으로 발생합니다.

  1. Onboard : Dual LAN with Intel® X550 10GBase-T Ethernet Controller
  2. PCI Slot
  • 4x 10GbE RJ45, PCI-E x8, Intel XL710 (AOC-STG-i4T)
  • 4x 10GbE RJ45, PCI-E x8, Intel XL710 (AOC-STG-i4T)

다. error issue

  • 해당 환경에서 Ubuntu OS 설치시 네트워크단에서 Rx drop이 지속적으로 발생함.

라. 검증방법

  • 동일 환경에서 증상 재현 확인함 : 서버<->스위치간 장비 연결 → 4Port 10Gb NIC 2장을 활용한 Bond구성에서도 drop이 발생하고,
    Onboard인 eno1에서도 drop이 발생함.
    : single network port에서도 발생되어 bonding구성 오류라고 볼 수 없음.
  • 동일 서버(supermicro 740GP-TNRT) eno1(Onboard)<-> Cisco 2960(검증을 위한 임시 스위치 입고하여 테스트함.)
    연결시에도 지속적으로 Rx drop현상 발생
  • 기존 서버(DELL R740 : CGR81D3) eno1(Onboard) ↔ 위 신규 스위치(NETGEAR XS728T)간 검증시 drop 발생 안 함.
  • 기존 서버(DELL R740 : CGR81D3) eno1(Onboard) ↔ Cisco 2960(검증을 위한 임시 스위치 입고하여 테스트함.) 스위치간 검증시 drop 발생 안 함.

** 서버노드를 제외한 모든 동일한 네트워크 환경에서 검증 테스트시 Rx drop현상이 SuperMicro Server에서만 발생함을 확인함.

  • 위 고객사에 총 supermicro 740GP-TNRT 9대 서버가 모두 일관되게 Rx drop이 발생합니다.

- 동일한 H/W에 Redhat7.x, CentOS7.x 설치시 Rx drop은 발생하지 않습니다.

이에 우분투와 해당 서버(intel NIC)간 이슈로 좁혀지는데 이 이슈를 해결할 수 있는 방법을 알고 계시면 공유좀 부탁 드립니다.

감사합니다.


이글을 보고, 이크 제꺼도 그런가 하고 인터페이스 확인했습니다.

아니나 다를까, 있네요…ㅜㅜ;;

저의 경우에는 MTU Mismatch 로 발생한거 같습니다.
해서 상대방 인터페이스 MTU를 9014로 맞추어 놓고 모니터링 중입니다.

근데, 모니터링 중 dropped이 증가 하네요.
하지만, Ping Loss는 없구요.
또, RX errors 도 증가하지 않구요.

하여 검색을 해보았답니다.
보통 이런 경우에는 커널이 패킷을 충분히 빠르게 가져오지 않거나 드라이버가 워크로드를 따라갈 수 없다는 의미라고 하네요.
https://community.pivotal.io/s/article/Network-Troubleshooting-Guide?language=en_US

떱, 드라이버를 다시 설치해 보아야 겠네요…TT

1개의 좋아요

image

이런, 드라이버를 재설치 해봐도 똑같네요…ㅜㅜ;
와, 이거 어렵네요~~~

아무래도, 커널 버전이 3. 대에서는 발생하지 않는데요. 4나 5로 가면서 발생하는 느낌입니다.

전, RX Dropped 이 있긴 하지만 패킷 Loss는 없어, 정신 건강을 위해 그냥 저냥 사용하려고 합니다.

1개의 좋아요

저는 잘 모르는 분야여서 전혀 감이 없었는데 읽으면서 잘 배웠습니다.
앞 분이 얘기 하신듯 저 역시 드라이버 보다는 리눅스 커널 버전이랑 연관이 있거나 혹시 사용하는 앱이 업그레이드 되면서 버그가 있는건가 라는 생각이네요.
ubuntu mainline 같은거로 커널을 바꿔서나 아니면 호스트의 메모리를 늘리면 나아지지 않을까 생각합니다.

2개의 좋아요

launchpad에 버그리포트 해 보심이 어떨까요?
올려주신 정보만 영어로 바꿔 올려주시면 큰 도움이 될 듯 합니다.

3개의 좋아요

@seyeong.kim 음 이쪽 패키지 같은데 맞을지 모르겠군요.
https://launchpad.net/ubuntu/+source/linux

@libero11 님은 아직 개편된 포럼 방문하신 적이 없는 것 같고
@gnsinfo @onting 두 분 중에 관심 있는 분이 한번 리포트 해 보시는건 어떨까요?

2개의 좋아요

oi~~~ 제가 한번 해보겠습니다. 도와 주시면요~~ :grin:
어디서 부터 시작해야 할지 감이 않오네요~~ :rofl:

일단은 커널 관련한 버그로 보이는거 같은데요. 검색 해 보니 아래와 같은 위키 페이지가 보이네요.
https://wiki.ubuntu.com/Kernel/Bugs

ubuntu-bug linux 명령 실행하면, 커널 관련 버그 리포트에 필요한 시스템 정보가 자동 수집 된다고 하네요. 제가 실행 해 보니, 자동으로 팝업 창 열려서 시스템 정보가 수집 되고. 수집 완료된 후에 보내기 버튼 누르면 Launchpad 에서 자동으로 버그 제출 화면이 열려서 생성된 파일이 첨부 됩니다.

The submitter should provide as much information as possible in the bug description:

  1. The majority of kernel bug are hardware specific so be sure to note what hardware/device is being used.
  2. Document any known steps to reproduce the bug.
  3. Also note whether the bug exists in previous kernel versions of Ubuntu or if it’s a regression from previous kernel versions.
  4. Finally, it’s critical to also make sure to test the latest development Ubuntu kernel version as well as the latest upstream mainline kernel.

버그 설명에는 아래와 같은 설명을 가능한 자세히 알려 달라고 하는군요. 위에서 언급 하셨던 내용도 같이 넣어 주시면 될거 같아요.

  • 대부분의 커널 버그가 특정 하드웨어 관련 버그이므로, 사용된 하드웨어나 장치 정보 필요
  • 버그 재현 방법 설명
  • 우분투의 이전 커널 버전에서도 같은 버그가 있었는지, 이전 커널 버전에서 regression (보안 패치로 인해 발생한 또 다른 버그 등)이 있었는지 정보
  • 마지막으로, 매우 중요한 이슈라면, 최신 우분투 개발 버전 커널이나 업스트림 메인라인 커널로 테스트 해 보았는지 여부.
2개의 좋아요

Bug Reporting 했는데, 어떨지 모르겠네요.

블록 따옴표
Bug #2015518 “ifconfig increase dropped value” : Bugs : linux package : Ubuntu

3개의 좋아요

수고하셨습니다 :slight_smile: 404로 나오는데 Private Bug 로 되어있나 보군요.

1개의 좋아요

커널 버전이 5.4.0인게 보이는데요 hwe 커널 (5.15.0)로 한번 테스트 해 보시는걸 추천드립니다.

3개의 좋아요

oem 커널 써보시는 것도 추천드려요.
https://wiki.ubuntu.com/Kernel/OEMKernel

2개의 좋아요