Inżynier operacyjny, sieć HPC
Canada, France, Germany, Netherlands, United Kingdom, United States
Do uzgodnienia
O tym stanowisku
auto_translated_note
fal to generatywny ekosystem mediów zasilający następną generację produktów AI. Budujemy infrastrukturę, narzędzia i dostęp do modeli, których zespoły potrzebują, aby przejść od pomysłu do produkcji, i robimy to na dużą skalę, bez kompromisów. Dla programistów i przedsiębiorstw fal to podstawa, która sprawia, że media generatywne są nie tylko możliwe, ale i praktyczne: ujednolicona platforma, na której wydajne wnioskowanie, orkiestracja i obserwowalność łączą się, aby odblokować nowe kategorie produktów natywnych dla sztucznej inteligencji.
W miarę jak media generatywne zmieniają branże na rynku, który ma wzrosnąć o setki miliardów w ciągu następnej dekady, fal staje się ekosystemem, na którym budują ambitne zespoły. Informacje o roli Zatrudniamy inżyniera operacyjnego ds. sieci HPC, aby utrzymać naszą InfiniBand i sieci Ethernet sprawne w miarę skalowania. To praktyczna rola.
Będziesz wprowadzać nowe tkaniny wraz z operacjami DC, monitorować te w produkcji i ścigać dziwne rzeczy: klapy łączy, zatory, przestoje NCCL, błędy oprogramowania sprzętowego, które pojawiają się tylko w dużej skali. Nadajesz się, jeśli:obsługujesz infrastrukturę InfiniBand w środowisku produkcyjnym: menedżer podsieci, routing, partycjonowanie, monitorowanie.Debugujesz cały stos: kable, urządzenia nadawczo-odbiorcze, oprogramowanie sprzętowe przełącznika, karty HCA, sterowniki, NCCL.Wychowujesz nowe struktury od przeciągania kabli poprzez walidację.Opracowujesz skrypty umożliwiające wykonanie powtarzalnych prac operacyjnych (bash, python, go, cokolwiek innego).Miło jest mieć: Ethernet RoCE, Spectrum-X lub klaster GPU na dużą skalę. networking.Kim jesteś:Zorientowany na szczegóły. Higiena roślin kablowych to cecha osobowości.
Spokój pod ostrzałem. Incydent dotyczący infrastruktury sieciowej podczas szkolenia dla klientów nie jest dla Ciebie wstrząsem. Informacje o wydaniu dostawcy czytasz dla zabawy lub przynajmniej w samoobronie.
Wolisz znaleźć przyczynę niż ponownie uruchomić przełącznik. Obowiązki: Monitorowanie stanu i wydajności sieci InfiniBand i Ethernet: przełączników, HCA, transceiverów, łączy. Zbadanie i rozwiązywanie problemów ze strukturą sieciową: łączność, przeciążenia, spadki wydajności.
Wsparcie infrastruktury sieciowej wraz z operacjami DC i zespoły obsługujące klientów. Przeprowadzaj konserwację i aktualizacje przełączników i komponentów platformy sterującej. Współpracuj z operatorami klastrów w przypadku incydentów między domenami, w których granica między obliczeniami a siecią jest niewyraźna.
Ulepszaj narzędzia i elementy Runbook, aby następny incydent był rozwiązywany szybciej niż poprzedni. Oryginalnie opublikowano w Himalajach