Inżynier danych (potoki danych i RAG)

Remote

Do uzgodnienia

Zdalnie

O tym stanowisku

auto_translated_note

Naszym klientem jest szybko rozwijająca się firma Property Tech AI. O roli. Poszukuje wszechstronnego inżyniera danych i sztucznej inteligencji do budowania, wdrażania i utrzymywania kompleksowych potoków danych dla dalszych aplikacji AI Gen.

Będziesz projektować modele danych i transformacje, budować skalowalne przepływy pracy ETL/ELT, jednocześnie szybko się ucząc i pracując w przestrzeni agenta AI. Kluczowe obowiązki Modelowanie danych i rozwój potoków - Automatyzacja pozyskiwania danych z różnych źródeł (bazy danych, interfejsy API, pliki, narzędzia do zarządzania Sharepoint/dokumentami, adresy URL). Oczekuje się, że większość plików będzie dokumentami nieustrukturyzowanymi z różnymi formatami plików, tabelami, wykresami, przepływami procesów, harmonogramami, układami konstrukcyjnymi/rysunkami itp. - Własna strategia fragmentacji, osadzanie, indeksowanie wszystkich nieustrukturyzowanych i ustrukturyzowanych danych w celu wydajnego wyszukiwania przez późniejsze systemy RAG/agentów - Tworzenie, testowanie i utrzymywanie niezawodnych przepływów pracy ETL/ELT przy użyciu Spark (wsadowe i strumieniowe) - Definiowanie i wdrażanie logicznych/fizycznych modeli i schematów danych.

Opracowywanie mapowania schematów i artefaktów słowników danych w celu zapewnienia spójności między systemami Integracja Gen AI - Potoki danych instrumentów w celu ukazania kontekstu czasu rzeczywistego w podpowiedziach LLM - Wdrożenie szybkiej inżynierii i RAG dla różnych przepływów pracy w pionie RE/budowlanym Obserwacja i zarządzanie - Wdrażanie monitorowania, ostrzegania i rejestrowania (jakość danych, opóźnienia, błędy) - Stosowanie kontroli dostępu i zabezpieczeń prywatności danych (np. Katalog Unity, IAM) CI/CD i automatyzacja - Opracowywanie automatycznych testów, wersjonowanie i wdrażanie (Azure DevOps, GitHub Actions, Prefect/Airflow) - Utrzymywanie powtarzalnych środowisk z infrastrukturą w postaci kodu (Terraform, szablony ARM) Wymagane umiejętności i doświadczenie - 5 lat w inżynierii danych lub podobnym stanowisku, z co najmniej 12-24 miesiącami doświadczenia w budowaniu potoków ekstrakcji danych nieustrukturyzowanych, w tym przetwarzania dokumentów za pomocą OCR, rozwiązań natywnych w chmurze oraz fragmentowania, indeksowania itp. do wykorzystania przez RAG/ Aplikacje AI generacji. - Biegła znajomość języka Python, dlt dla potoku ETL/ELT, duckDB lub równoważnych narzędzi do analitycznej analizy w trakcie procesu, dvc do wydajnego zarządzania dużymi plikami. - Solidna znajomość języka SQL oraz doświadczenie w projektowaniu i skalowaniu relacyjnych baz danych. Mile widziana znajomość nierelacyjnych baz danych kolumnowych. - Mile widziana znajomość Prefect lub innych (np.

Azure Data Factory) - Biegła znajomość ekosystemu Azure. Powinieneś pracować nad usługami Azure w środowisku produkcyjnym. - Znajomość indeksowania, fragmentowania i przechowywania plików RAG w różnych typach plików w celu wydajnego wyszukiwania. - Solidne przepływy pracy Dev Ops/Git i CI/CD (CircleCI / Azure DevOps) - Mile widziane doświadczenie we wdrażaniu artefaktów ML przy użyciu MLflow, Docker lub Kubernetes. Dodatkowe zestawy umiejętności: - Doświadczenie w ekstrakcji opartej na wizji komputerowej lub doświadczenie w budowaniu modeli uczenia maszynowego do celów produkcyjnych - Znajomość projektowania agentowych systemów AI - pamięć, narzędzia, kontekst, orkiestracja - Znajomość zarządzania danymi, przepisów dotyczących prywatności (RODO) i wzorców bezpieczeństwa przedsiębiorstwa Jest to startup na wczesnym etapie, więc oczekuje się od Ciebie, że będziesz nosił wiele kapeluszy i pracował z rzeczami wykraczającymi poza Twoją strefę komfortu, ale z rzeczywistym i bezpośrednim wpływem na produkcję.

Dlaczego nasz klient? - Szybko rozwijający się, generujący przychody start-up proptech - Płaskie środowisko bez licencjata, duża autonomia dla odpowiednich talentów - Szerokie możliwości uczenia się w rzeczywistych przypadkach zastosowań produkcyjnych w przedsiębiorstwie - Praca zdalna w ramach kwartalnych spotkań - Wielorynkowy, wielokulturowy kontakt z klientami Aplikuj bezpośrednio na RemoteJobs.org: https://remotejobs.org/remote-jobs/data-engineer-data-pipelines-rag-hyred

Zgłoś ogłoszenie

O tym stanowisku

Załóż darmowe konto