dev.Klassikcat

전체글(2)

TensorRT + Triton Inference Server로 서빙 최적화하기
들어가며어느정도 가벼운 모델들은 AWS Lambda와 같은 서버리스 컴퓨팅 인스턴스에서도 괜찮은 수준의 쓰루풋이 보장되지만, BERT와 같은 상당수의 NLP 모델은 pruning과 quantization, distillation과 같은 여러 최적화 기법을 사용하지 않는 이상 GPU에서 추론을 해야 어느정도의 쓰루풋이 보장됩니다. 그러나 거의 실시간 수준의 추론 속도가 요구되는 경우 보통은 단순히 GPU 인스턴스에 올리는 것만으로는 쓰루풋을 보장하기 어려운 경우가 많습니다. 물론 앞서 말한 여러 최적화 기법을 사용할 수 있으나, pytorch 모델의 경우 quantization을 할 시 cpu 인스턴스에만 올릴 수 있는 등의 제약이 있고, 그 외에도 해당 최적화 기법은 모델링 혹은 학습을 새로 하거나(di..
14:39:07
Bias & Variance는 trade-off가 다가 아니다.
보통 머신러닝 관련 교육을(어디에서건) 받은 사람들은 Bias and variance trade-off 관계에 대해서 들어본 적이 있을 것이다. bias와 variance는 trade-off 관계를 지녔기 때문에 이 둘의 균형을 잘 찾아야 모델의 성능을 높일 수 있다는 말이다. 하지만 bias와 variance에는 단순히 둘이 trade-off 관계를 가졌다는 것 외에도 더 많은 것을 의미하고 있다. Bias와 Variance를 알면, 모델이 문제인지, 혹은 데이터셋이 문제인지 파악이 가능하다. 머신러닝 모델에서 에러는 크게 두 가지, Approximation과 Generalization에서 온다. 쉽게 말해 모델이 알고리즘이 정답 값을 추정하는데에서 발생하는 에러와 데이터셋 자체의 분산으로 인해 발생한..
2023.04.02

1

티스토리툴바