Starszy inżynier ds. klastrów HPC

Germany, Netherlands, United Kingdom

Do uzgodnienia

Zdalnie Biuro i administracja

Zarejestruj się, aby aplikować

O tym stanowisku

Numery telefonów i adresy e-mail w tym ogłoszeniu są ukryte do momentu zalogowania.

auto_translated_note

O Nebiusie: Nebius wyznacza nową erę w infrastrukturze chmurowej dla globalnej gospodarki opartej na sztucznej inteligencji. Budujemy kompleksową platformę chmurową AI, która wspiera programistów i przedsiębiorstwa od szkolenia w zakresie danych i modeli po wdrożenie produkcyjne, bez kosztów i złożoności budowania dużej wewnętrznej infrastruktury AI/ML. Zbudowany przez inżynierów dla inżynierów.

Od orkiestracji procesorów graficznych na dużą skalę po optymalizację wnioskowania - jesteśmy odpowiedzialni za trudne problemy w zakresie obliczeń, pamięci masowej, sieci i stosowanej sztucznej inteligencji. Jesteśmy notowani na giełdzie Nasdaq (NBIS) i z siedzibą w Amsterdamie. Mamy globalny zasięg z ośrodkami badawczo-rozwojowymi w Europie, Wielkiej Brytanii, Ameryce Północnej i Izraelu.

Nasz zespół liczący ponad 1500 osób składa się z setek inżynierów z głęboką wiedzą specjalistyczną w zakresie sprzętu, oprogramowania oraz badań i rozwoju sztucznej inteligencji. Rola Poszukujemy starszego inżyniera ds. klastrów HPC, który dołączy do naszego zespołu i odegra kluczową rolę w rozwoju naszej najnowocześniejszej platformy hiperskalera. Zespół GPU i InfiniBand jest odpowiedzialny za ulepszanie i optymalizację podstawowych komponentów naszej platformy Cloud, ze szczególnym naciskiem na przetwarzanie GPU, sieci InfiniBand i stos KVM/QEMU.

Będziesz ściśle współpracować z technologiami wirtualizacji sprzętu i emulacji urządzeń, zapewniając wysoką wydajność i bezpieczeństwo w środowiskach HPC i wielu GPU. Rola ta polega na analizowaniu, rozwiązywaniu problemów i ulepszaniu infrastruktury w celu obsługi nowego sprzętu, dostrajaniu wydajności systemu oraz automatyzacji wykrywania i rozwiązywania usterek w złożonym systemie. Na tym stanowisku będziesz odpowiedzialny za: Strojenie wydajności klastrów GPU i sieci InfiniBand w celu zapewnienia optymalnego działania w środowiskach HPC i opartych na GPU.

Analizowanie i rozwiązywanie głównych przyczyn problemów związanych z procesorami graficznymi i sieciami InfiniBand oraz proponowanie działań naprawczych. Integracja nowego sprzętu z istniejącą infrastrukturą, w tym obsługa nowego sprzętu GPU za pośrednictwem stosów oprogramowania, takich jak Kubernetes, QEMU i KVM. Udoskonalanie systemów automatyzacji w celu proaktywnego monitorowania, wykrywania i rozwiązywania problemów w środowiskach GPU i InfiniBand.

Konfigurowanie i zarządzanie urządzeniami GPU oraz sieciami InfiniBand, zapewniające wydajne i niezawodne działanie. Oczekujemy, że będziesz mieć: ponad 5 lat doświadczenia zawodowego w tworzeniu oprogramowania na poziomie systemowym (koncentrującym się na optymalizacji wydajności, programowaniu niskopoziomowym). Ponad 3 lata praktycznego doświadczenia z systemami Linux (administracja, rozwiązywanie problemów i dostrajanie wydajności).

Dogłębne zrozumienie architektury serwerów, w tym urządzeń PCIe, kart sieciowych, systemu operacyjnego/jądra Linux i systemów obliczeń o wysokiej wydajności (HPC). Dobra znajomość jednego lub większej liczby języków programowania zorientowanych na wydajność (C/C++, Go, Python). Dodatkowym atutem będzie: Doświadczenie w kompleksowym testowaniu procesorów graficznych w środowisku klastrowym z wykorzystaniem sieci InfiniBand.

Udokumentowane doświadczenie w analizowaniu i optymalizacji wydajności obciążeń HPC (np. symulacje, analiza danych, obciążenia AI/ML). Znajomość protokołów RDMA, RoCE i InfiniBand zapewniających wysoką wydajność komunikacji. Znajomość sieci definiowanych programowo (SDN) i doświadczenie w sieciach klastrów HPC.

Zrozumienie wirtualizacji QEMU/KVM i zarządzania środowiskami zwirtualizowanymi. Doświadczenie z platformami głębokiego uczenia się, takimi jak PyTorch i TensorFlow, oraz ich integracją z systemami HPC. Znajomość bibliotek komunikacji zbiorowej, takich jak MPI i NCCL, do przetwarzania rozproszonego.

W ramach tego procesu przeprowadzamy rozmowy kwalifikacyjne z zakresu kodowania. Korzyści i korzyści: Konkurencyjne wynagrodzenie Możliwość rozwoju zawodowego i uczenia się Elastyczność i własność Kultura współpracy i innowacyjności Możliwość pracy nad wpływowymi projektami AI Międzynarodowe środowisko i utalentowane zespoły Jak to jest pracować w firmie Nebius: Szybkość działania - Odważne myślenie - Stały rozwój - Znaczący wpływ - Zaufanie i prawdziwa własność - Możliwość kształtowania przyszłości AI Oświadczenie o równych szansach: Nebius to pracodawca zapewniający równe szanse. Zależy nam na wspieraniu włączającego i zróżnicowanego miejsca pracy oraz zapewnianiu równych możliwości zatrudnienia we wszystkich aspektach zatrudnienia.

Nie dyskryminujemy ze względu na rasę, kolor skóry, religię, płeć (w tym ciążę), pochodzenie narodowe, pochodzenie, wiek, niepełnosprawność, informacje genetyczne, stan cywilny, status weterana, orientację seksualną, tożsamość lub ekspresję płciową lub jakąkolwiek inną cechę chronioną przez obowiązujące prawo. Kandydaci muszą mieć zezwolenie na pracę w kraju, w którym składają wniosek, i będą zobowiązani do przedstawienia dokumentu potwierdzającego uprawnienia do zatrudnienia jako warunku zatrudnienia. Jeśli potrzebujesz zakwaterowania w trakcie procesu aplikacyjnego, daj nam znać.

Oryginalnie opublikowano w Himalajach

Zgłoś ogłoszenie

O tym stanowisku

Załóż darmowe konto