EventMachine

EventMachine은 Ruby, Java, 그리고 C++을 위한 고성능 네트웍 I/O라이브러리이다. 최근 네트웍서버를 하나 만들게 되었는데, 프로토타입 개발과 성능테스트 모듈을 EventMachine으로 개발했다. 예전에는 Ruby용 라이브러리라고만 생각했는데, 살펴보니 Java나 C++환경에서도 쓸 수 있을뿐더러 (JRuby가 아니고서야 누가 쓸까 궁금하긴 하지만 말이다) 보면 볼 수록 잘만들었다는 생각이 들었다.

실제 서버는 사내의 자체개발 프레임워크를 이용해 C로 개발을 완료하고 성능테스트를 돌리려는 시점이었다.  EventMachine을 써서 개발한 루비 프로세스를 17대의 서버에 얹어놓고, 한꺼번에 접속해서 부하를 주려는데, 각각의 루비프로세스가 TCP커넥션이 1024개 근처가 되면 죽어나가는 상황 발생. 당연이 Max Open File Descriptor문제이리라 생각하고, 17대의 서버에서  ulimit을 모두 올려주었다. soft/hard limit을 모두 올려놓고 다시 테스트를 하는데, 또다시 1024개 근처에서 루비프로세스는 죽고 말았다. 

성능테스트 모듈자체가 중요한 상황이 아니었기때문에, 해당 문제를 해결하는 일은 접어두고, 성능테스트 자체에 집중하기로 했다. 결국 각각의 서버에서 다수의 루비프로세스를 실행해서 목표서버에 무식하게 많은 커넥션을 열고 트래픽을 걸어서 테스트를 완료했다. 

Ruby의 select문제

그러고 며칠 후, 아무리 생각해도, 루비 프로세스가 죽어나간 점이 찜찜해서, 여유시간에 해당 문제를 파고들었다. 찾아낸 결과 자료는 의외로 가까운 곳에 있었다. eventmachine패키지안에 포함된 EPOLL이라는 텍스트 문서에 아주 자세하게 설명되어있던 것. 

select함수는 해당되는 descriptor가 수백개가 넘어가면 성능저하가 매우 진다고 하는데, 게다가 루비에서는 select를 사용할 수 있는 디스크립터 수가 1024개로 제한되어있던 것. 우선 루비에서 하드코딩으로 이 숫자가 제한되어 있는 점은 그러려니 한다. 어차피 수백개 넘어가면 지나친 성능 저하로 실용성이 매우 적기 때문에 1024개도 너무 많다고 생각하니까 말이다. 하지만, 문제는, 믿었던 EventMachine인데, 난 이 친구가 당연히 epoll/kqueue를 기본으로 사용한다고 믿어 의심치 않았던 것.  


epoll, kqueue

EventMachine의 기본값은 그냥 일반 select함수를 사용하는 것이었다. 응? 설치할 때 컴파일하면서 시스템별로 사용할 수 있는 함수 사용하는 거 아니었어? 당연히 내 Mac에서는 kqueue를 쓰고, Linux환경에서는 epoll써줘야하는 거 아니야? 결과적으로, 현재버전까지(0.12.10) 아직은 아니었다. 

EM.run 블럭을 실행하기전에 

EM.epoll
EM.kqueue
EM.run {
   ...
}

를 실행해 주어야, 해당 기능을 쓸 수 있는 환경에서 작동을 하며, 그렇지 않다면 그냥 select를 쓰게 되는 것.  두 함수는 해당 기능을 쓸 수 없는 환경에서는 무시되므로 환경 생각하지 않고 호출해주어도 되겠다. 기본값이 일반 select를 쓰게해놓은 이유는 뭘까? 

아무튼, EventMachine을 쓰면서 다수의 연결을 유지해야할 필요가 있다면, 위 메소드들을 꼭 호출해 놓고 사용해야할듯 하다.  




Posted by hatemogi 트랙백 0 : 댓글 1

티스토리 툴바