O tym stanowisku
Numery telefonów i adresy e-mail w tym ogłoszeniu są ukryte do momentu zalogowania.
auto_translated_note
Poszukujemy starszego architekta rozwiązań z dużym praktycznym doświadczeniem we wdrażaniu, debugowaniu i optymalizacji obciążeń szkoleniowych i wnioskowania w dużych klastrach GPU. Wspierając klientów i partnerów w całej Europie w modelach szkoleniowych dotyczących przełomowej infrastruktury GPU, szukamy kogoś, kto lubi rozwiązywać złożone wyzwania na styku obliczeń o dużej wydajności i sztucznej inteligencji. Podobnie złożoność wnioskowania wzrasta wraz z eksplozją modeli MOE i zdezagregowanym wykonaniem, co sprawia, że wnioskowanie staje się naprawdę obciążeniem HPC.
Nie musisz posiadać wiedzy specjalistycznej w zakresie wszystkich wymienionych przez nas umiejętności, ale szczególnie interesują nas kandydaci, którzy wnoszą głęboką wiedzę w co najmniej kilku kluczowych obszarach, aby umożliwić obciążenie AI na dużą skalę. Jeśli potrafisz wykazać się praktycznym doświadczeniem, chętnie wysłuchamy Twojej opinii. Czym będziesz się zajmował: Współpraca z twórcami platformy szkoleniowej NVIDIA i zespołami ds. produktów, aby wyprzedzać najnowsze funkcje i pomagać partnerom w ich skutecznym wdrażaniu.
Pomoc we wdrażaniu, debugowaniu i poprawianiu wydajności obciążeń AI na rozbudowanych platformach NVIDIA. Testowanie nowych funkcji platformy, analizowanie wydajności i dzielenie się praktycznymi spostrzeżeniami zarówno z klientami, jak i zespołami wewnętrznymi. Bezpośrednia współpraca z klientami zewnętrznymi w celu rozwiązywania problemów z wydajnością i stabilnością klastra, identyfikuj wąskie gardła i wdrażaj skuteczne rozwiązania.Buduj wiedzę specjalistyczną i prowadź klientów w zakresie wydajnego i niezawodnego skalowania obciążeń przy użyciu najnowszej generacji procesorów graficznych NVIDIA.Wkład w europejską inicjatywę Suwerenna sztuczna inteligencja, pomagając klientom we wdrażaniu zaawansowanych funkcji odporności w ramach szkoleń AI.Co musimy zobaczyć:BS, MS, doktorat lub równoważne doświadczenie w informatyce, elektrotechnice/inżynierii komputerowej, fizyce, matematyce lub pokrewnej dziedzinie inżynierii lub równoważne doświadczenie praktyczne.8+ lat doświadczenia w technologie przyspieszonego przetwarzania w skali klastra, najlepiej obejmujące współpracę z platformami NVIDIA.Doskonałe umiejętności programowania w co najmniej jednym z następujących języków: C, C++ lub Python.Praktyczne doświadczenie w identyfikowaniu i rozwiązywaniu wąskich gardeł w obciążeniach szkoleniowych na dużą skalę lub w aplikacjach równoległych.Praktyczne doświadczenie w profilowaniu i debugowaniu dużych aplikacji równoległych.Dokładna znajomość architektur procesorów i GPU, CUDA, równoległych systemów plików i szybkich połączeń wzajemnych.Doświadczenie w pracy z dużymi klastrami obliczeniowymi ze zrozumieniem ich wewnętrznych mechanizmów planowania i zarządzania zasobami (np.
SLURM lub klastry oparte na chmurze). Biegła wiedza na temat potoków i frameworków szkoleniowych, obejmująca ich wewnętrzne operacje i atrybuty wydajności. Sposoby wyróżnienia się z tłumu: Doświadczenie w debugowaniu potoków szkoleniowych działających na tysiącach procesorów graficznych w środowisku produkcyjnym.
Praktyczne doświadczenie w profilowaniu wydajności i optymalizacji przy użyciu narzędzi takich jak Nsight Systems, Nsight Compute oraz dobra znajomość NCCL, MPI i biblioteki komunikacyjne niskiego poziomu. Możliwość debugowania problemów ze stabilnością na całym stosie: aplikacje równoległe, frameworki szkoleniowe, biblioteki wykonawcze, harmonogramy i sprzęt. Solidne zrozumienie wewnętrznego działania frameworków LLM, takich jak PyTorch, Megatron-LM lub NeMo, oraz ich wpływu na warstwy obliczeniowe, takie jak procesory, procesory graficzne, sieć i pamięć masowa lub zrozumienie narzędzi wnioskowania, takich jak vLLM, Dynamo, TensorRT-LLM, RedHat Inference Server lub SGLang.
Twoje wynagrodzenie podstawowe zostanie ustalone na podstawie Twojej lokalizacji, doświadczenia i wynagrodzeń pracowników na podobnych stanowiskach. Rozważamy następujące kwestie: Włochy: Podstawowy zakres wynagrodzenia wynosi 77 250 EUR - 133 900 EUR na poziomie 4 i 97 500 EUR - 169 000 EUR na poziomie 5. Twoje wynagrodzenie podstawowe zostanie ustalone na podstawie Twojej lokalizacji, doświadczenia i wynagrodzeń pracowników na podobnych stanowiskach.
Dla Polski: Podstawowy zakres wynagrodzenia wynosi 292 500 zł - 507 000 zł dla poziomu 4 i 375 000 zł - 650 000 zł dla poziomu 5. Oryginalnie opublikowano w Himalajach