Dlaczego „open source” przy AI to śliski temat: uporządkowanie pojęć
Open source, open access, open weights, open data – cztery różne światy
Przy klasycznym oprogramowaniu pojęcie open source jest dość klarowne: kod jest dostępny, można go modyfikować i rozpowszechniać na określonych zasadach (np. MIT, Apache 2.0, GPL). W AI to za mało. Dochodzą dodatkowe warstwy: architektura modelu, wagi, dane treningowe, a często także pipeline’y i narzędzia do trenowania.
Najczęściej mieszają się cztery pojęcia:
- Open source – otwarty jest kod (np. implementacja architektury, skrypty trenowania). Zwykle licencja zgodna z definicją OSI; nie mówi wprost nic o danych czy wagach.
- Open access – dostęp jest otwarty (można pobrać model lub skorzystać z API), ale warunki użycia są ograniczone; to nie musi być open source w sensie licencyjnym.
- Open weights – twórcy udostępniają wagi modelu (pliki .bin, .safetensors itp.), czasem bez pełnego kodu czy danych treningowych. Licencja bywa autorska, nierzadko z ograniczeniami komercyjnymi.
- Open data – otwarty i licencjonowany zestaw danych (np. CC BY, CC0), który można pobrać i wykorzystać w swoich projektach AI.
Model AI może być więc częściowo „otwarty”: kod na MIT, ale wagi na licencji „research only”, a dane treningowe niedostępne lub częściowo naruszające cudze prawa. To właśnie ten miks powoduje największe nieporozumienia – szczególnie w zespołach produktowych i marketingowych, które widzą tylko, że „kod jest na GitHubie, więc jest open source”.
Otwarte kody, otwarte wagi i otwarte datasety – co dokładnie jest „otwarte”
Żeby zminimalizować ryzyko prawne i etyczne, trzeba za każdym razem zadać sobie pytanie: co konkretnie jest otwarte w danym projekcie AI. Sytuacje są różne:
- Kod jest open source (MIT, Apache 2.0), ale model działa wyłącznie przez API pod komercyjnym regulaminem – tak bywa przy projektach, które publikują tylko referencyjną implementację.
- Kod i wagi są otwarte, ale dane treningowe są mieszanką zbiorów: część open data, część „web scraped”, część nieujawniona – trudno wtedy ocenić legalność i etyczność całości.
- Datasety są open data (np. CC BY), natomiast konkretna implementacja modelu ma autorską licencję z ograniczeniami (np. brak użycia komercyjnego, zakaz trenowania konkurencyjnych modeli).
W praktyce oznacza to, że słowo „open” w nazwie repozytorium czy modelu nie ma automatycznej mocy prawnej. Trzeba precyzyjnie sprawdzić licencje dla każdej warstwy: kod → wagi → dane. Pominięcie którejkolwiek kończy się zwykle „szarą strefą” odpowiedzialności – ktoś coś ściągnął, działa, ale nikt nie wie, na jakich zasadach.
„Dostępny za darmo” vs „prawdziwie otwarty” w kontekście AI
Dużym źródłem pomyłek jest utożsamianie „darmowego” dostępu z „otwartością”. Model może być:
- dostępny za darmo do testów, ale zakazany do użycia w produkcji,
- darmowy do użytku niekomercyjnego, ale płatny w biznesie,
- otwarty do użycia, ale z zakazem tworzenia usług konkurencyjnych wobec twórcy modelu,
- całkowicie open source (łącznie z kodem, wagami i dokumentacją), bez ograniczeń komercyjnych.
Dostęp bez opłat mówi tylko o koszcie, a nie o prawach. Dla organizacji oznacza to konieczność mapowania: „free” ≠ „open source” ≠ „bezpieczne prawnie”. Projekt, który ruszy jako darmowy proof-of-concept na licencji non-commercial, może utknąć przy próbie komercjalizacji – lub wymagać kosztownego przepisania na inny model.
Typowe nieporozumienia w firmach wokół open source i AI
Najczęstszy schemat wygląda podobnie: deweloper znajduje na GitHubie albo Hugging Face ciekawy model, szybko integruje go w MVP, a dopiero po kilku sprintach ktoś zadaje pytanie o licencję. Wtedy wychodzi na jaw, że:
- licencja jest „research only” – nie można użyć modelu w komercyjnej usłudze,
- dataset ma komponent „non-commercial” (np. CC BY-NC), mimo że model ma Apache 2.0,
- w regulaminie stoi wprost zakaz użycia w określonych branżach (np. adtech, broń, finanse),
- w ogóle brak jest licencji – czyli domyślnie pełnia praw autorskich pozostaje przy twórcy.
Z prawnego i etycznego punktu widzenia to organizacja (nie pojedynczy programista) odpowiada za użycie modelu. Dlatego pierwszym krokiem powinno być zbudowanie jasnych zasad: co wolno ściągać, z jakich repozytoriów, kto ocenia licencje i kiedy model może trafić na produkcję.
Kluczowe rodzaje licencji w świecie AI: kod, model, dane
Trzy warstwy licencjonowania: kod modelu, wagi, dane treningowe
AI dokłada do klasycznego świata open source dwie istotne warstwy: wagi i dane. Ostrożna organizacja patrzy na każdy projekt AI przez pryzmat trzech odrębnych licencji:
- Kod modelu – biblioteki, frameworki, skrypty trenowania, narzędzia MLOps.
- Wagi modelu – „gotowy mózg” modelu: pliki z parametrami wytrenowanymi na danych.
- Dane treningowe – zbiory tekstu, obrazów, audio itd., na których model był uczony lub które wykorzystujesz, trenując własny model.
Oznacza to, że możesz mieć np. kod na licencji MIT, wagi na „non-commercial use only”, a dane w połowie zastrzeżone, w połowie nieznanego pochodzenia. Z perspektywy ryzyka prawnego każda z tych warstw może wygenerować osobne roszczenia: od naruszenia praw autorskich, przez RODO, po złamanie warunków licencyjnych.
Najpopularniejsze licencje na kod w AI: MIT, Apache 2.0, GPL, AGPL
Frameworki i biblioteki AI korzystają z klasycznych licencji open source. W pigułce, co one oznaczają dla firmy:
| Licencja | Charakter | Konsekwencje dla organizacji |
|---|---|---|
| MIT | Permisywna | Można używać komercyjnie, zamykać kod, minimalne obowiązki (zachowanie informacji o licencji i autorach). |
| Apache 2.0 | Permisywna + ochrona patentowa | Podobnie jak MIT, dodatkowo jasne zasady dot. patentów; często preferowana w biznesie. |
| GPL | Copyleft | Jeśli połączysz kod w sposób „silny” (np. linkowanie statyczne), możesz być zmuszony udostępnić cały projekt na GPL. |
| AGPL | Silny copyleft z zasięgiem sieciowym | Może wymagać udostępnienia kodu także wtedy, gdy użytkownik korzysta przez sieć (np. aplikacja webowa). |
W świecie AI najczęściej spotyka się MIT i Apache 2.0 (PyTorch, TensorFlow, liczne biblioteki NLP). Projekty na GPL/AGPL pojawiają się rzadziej, ale ich użycie bywa obciążone dodatkowymi konsekwencjami. Gdy pipeline modeli ma trafić do produktu SaaS, obecność AGPL w stacku powinna zapalić czerwoną lampkę i wymagać analizy prawnej.
Licencje na modele i wagi: od Apache po dedykowane licencje modelowe
Wagi modelu bywają licencjonowane zupełnie inaczej niż kod. Twórcy chcą zwykle:
- zachować maksymalną kontrolę komercyjną,
- ograniczyć ryzyka wizerunkowe (np. użycie w broni, deepfake’ach politycznych),
- zabezpieczyć się przed „klonowaniem” konkurencyjnych usług.
Efektem są różne modele licencyjne:
- wagi na Apache 2.0 lub podobnej permisywnej licencji – faktycznie otwarte do celów komercyjnych, z minimalnymi ograniczeniami,
- wagi na licencjach typu „non-commercial” lub „research only”, które zakazują użycia modelu w komercyjnych produktach,
- wagi na autorskich licencjach modelowych (np. „Responsible AI License”, „OpenRAIL” i ich warianty), które dopuszczają komercję, ale z szeregiem klauzul dotyczących nadużyć i obszarów zabronionych.
Część projektów używa też licencji Creative Commons (np. CC BY) dla dokumentacji i materiałów, ale wprost zaznacza, że licencja nie obejmuje wag modelu lub kodu. Przy każdym repozytorium trzeba więc sprawdzić, do czego dokładnie odnosi się plik LICENSE: do kodu, do wag, do dokumentacji czy do wszystkiego łącznie.
Licencje na dane: Creative Commons i zastrzeżone zbiory
Datasety AI żyją własnym życiem licencyjnym. Najczęściej spotyka się:
- CC0 – brak praw autorskich (przekazanie do domeny publicznej); idealne do datasetów, ale rzadkie przy treściach o większej wartości.
- CC BY – można używać, również komercyjnie, pod warunkiem wskazania autorstwa.
- CC BY-SA – jak CC BY, ale wymagane jest „dzielenie się na tych samych warunkach” (share-alike) przy tworzeniu utworów zależnych; w datasetach bywa trudne do poprawnej implementacji.
- CC BY-NC – zakaz użycia komercyjnego; problematyczne w firmach, nawet jeśli użycie wydaje się „pośrednie”.
- CC0 / Public Domain – formalnie brak ograniczeń, choć pozostają kwestie RODO, praw do wizerunku i innych regulacji.
Oprócz tego dochodzą zastrzeżone zbiory danych (np. komercyjne dane branżowe, dane klientów, dane zakupione od zewnętrznego dostawcy) z własnymi umowami licencyjnymi. Umowy te mogą zakazywać trenowania modelu AI, „odtworzenia” danych w modelu lub ich dzielenia się z podwykonawcami chmurowymi. Zaniedbanie tych zapisów jest jednym z klasycznych źródeł ryzyka przy trenowaniu wewnętrznych modeli.

Kiedy licencja „przechodzi” na użytkownika: praktyczny łańcuch odpowiedzialności
Łańcuch: twórca modelu → dystrybutor → integrator → użytkownik końcowy
Model open source lub open weights rzadko trafia bezpośrednio od twórcy do użytkownika końcowego. Zwykle mamy do czynienia z łańcuchem:
- Twórca modelu – naukowcy, firma technologiczna, społeczność open source.
- Dystrybutor – GitHub, Hugging Face, własny hosting modelu, marketplace chmurowy.
- Integrator – twoja organizacja lub podwykonawca, który włącza model do produktu/usługi.
- Użytkownik końcowy – klient, pracownik, partner biznesowy.
Każde ogniwo może dodawać własne warunki: regulamin platformy, regulamin API, regulamin usługi SaaS. Licencja twórcy modelu działa w tle, ale to integrator jest tym, kto bierze na siebie ryzyko dopasowania całości do prawa i warunków licencyjnych. Gdy pojawia się szkoda, poszkodowany najczęściej pozywa albo integratora (dostawcę usługi), albo firmę, która na tej usłudze zarabia.
Korzystanie z API vs korzystanie z kodu i wag – gdzie zaczyna się dziedziczenie licencji
Jeżeli korzystasz z modelu wyłącznie przez API dostawcy, zwykle:
- nie „dotykasz” bezpośrednio kodu ani wag,
- wiąże cię regulamin/umowa dostawcy API, a nie pierwotna licencja open source modelu,
- dostawca bierze na siebie obowiązki wynikające z licencji kodu i datasetów.
Sytuacja zmienia się, gdy:
- pobierasz kod i wagi na swoje serwery – wtedy stajesz się „użytkownikiem licencjobiorcą”,
- tworzysz modyfikacje modelu, które następnie dystrybuujesz dalej (np. fine-tuning i udostępnienie modelu klientom),
- używasz open source frameworków (np. PyTorch) we własnym produkcie, do którego dołączasz ich kod.
W tych scenariuszach musisz wprost stosować się do warunków licencji kodu i wag, a nie tylko do regulaminu API. „Dziedziczenie” licencji jest więc przede wszystkim konsekwencją sposobu integracji, a nie samej technologii AI.
Miksowanie modeli i datasetów o różnych licencjach
Konflikty licencyjne przy łączeniu zasobów
Miksowanie modeli i datasetów z różnych źródeł przypomina mieszanie kilku umów w jednym kontrakcie. Z prawnego punktu widzenia problem pojawia się, gdy:
- licencje mają sprzeczne wymagania (np. jedna wymaga udostępnienia całości na tych samych warunkach, druga tego zakazuje),
- nie jesteś w stanie wykonać wszystkich obowiązków jednocześnie (np. pełne ujawnienie źródeł danych vs NDA na część datasetu),
- łączy się komponent „tylko do badań” z komercyjnym produktem.
Prosty przykład z praktyki: firma łączy model z wagami „non-commercial” z własnym kodem na Apache 2.0 i sprzedaje to jako SaaS. Użytkownicy mają prawo uznać, że dostali produkt na warunkach Apache 2.0, ale faktycznie naruszasz zakaz komercyjnego użycia wag. Formalnie to integrator odpowiada za to, że nie da się zrealizować wszystkich licencji w jednym scenariuszu użycia.
Przy każdym miksowaniu zadaj podstawowe pytanie: czy ten scenariusz pozwala na jednoczesne dotrzymanie wszystkich licencji? Jeśli choć jedna klauzula stoi w sprzeczności z inną, trzeba zmienić architekturę, wymienić komponent albo uzyskać dodatkową zgodę.
Modele pochodne, fine-tuning i „zarażanie” licencją
W świecie AI szczególnie kłopotliwe są sytuacje, gdy tworzysz model pochodny:
- robisz fine-tuning cudzych wag na własnych danych,
- łączysz kilka modeli w ensemble lub pipeline, który z punktu widzenia użytkownika jest jednym systemem,
- doklejasz własne moduły (np. klasyfikator treści zabronionych) do cudzego modelu bazowego.
Licencje modelowe często zakładają, że model pochodny dziedziczy ograniczenia modelu bazowego. Jeśli więc baza jest „non-commercial”, to fine-tuned wersja z reguły też. Nie pomaga argument, że „optymalizacja była kosztowna, więc to nowy model” – decydują zapisy licencji, a nie wysiłek włożony w modyfikację.
Spotyka się też zapisy, że:
- modele pochodne muszą być udostępnione na tej samej licencji (modelowy odpowiednik copyleft),
- nie wolno usuwać lub obchodzić wbudowanych mechanizmów bezpieczeństwa (np. filtrów treści),
- modele pochodne muszą zachować oznaczenie autorstwa i link do pierwotnego repozytorium.
Przed wdrożeniem fine-tuningu do produktu komercyjnego przydaje się krótka checklista:
- Jaka jest licencja wag modelu bazowego?
- Czy licencja zezwala na komercyjny model pochodny?
- Czy istnieje obowiązek udostępnienia wag lub kodu modelu pochodnego?
- Czy licencja akceptuje użycie na twoich konkretnych danych (np. brak zakazu dla danych medycznych)?
Jak dokumentować pochodzenie komponentów AI
Bez porządnej dokumentacji pochodzenia kodu, wag i datasetów żaden dział prawny nie będzie w stanie rzetelnie ocenić ryzyka. Minimum to:
- SBOM / „model BOM” – lista wszystkich komponentów: repozytorium, commit, wersja, autor, licencja.
- Ścieżka pobrania – skąd dokładnie pobrano wagi i dane (link, hash plików, data).
- Stan licencji na dzień pobrania – zrzut pliku LICENSE, istotnych warunków, ewentualnych zmian wersji.
Przy każdym istotnym modelu warto dodać prosty plik ATTRIBUTION.md lub LICENSES.md, gdzie opiszesz:
- jakie zewnętrzne modele i biblioteki zostały użyte,
- na jakich licencjach są dostępne,
- jakie obowiązki wykonujesz (np. linki do źródeł, noty prawne w UI).
Takie minimalne „metryki prawne” modeli pozwalają później szybko odpowiedzieć na pytania klienta, audytora czy regulatora. Ułatwiają też migrację: gdy trzeba wymienić jeden komponent na inny, widzisz od razu, gdzie jest zakotwiczony w systemie.
Etyczne wykorzystanie gotowych modeli: praktyka zamiast deklaracji
Od „open” do „odpowiedzialnego” – gdzie kończy się wolność, a zaczyna obowiązek
To, że model jest dostępny na permisywnej licencji, nie oznacza, że każde zastosowanie jest rozsądne. Odpowiedzialność rozkłada się na kilka poziomów:
- Twórca modelu – decyduje, jakie dane trafią do treningu, jakie ograniczenia wprowadzi w licencji, jakie zabezpieczenia doda.
- Integrator – wybiera scenariusze użycia, projektuje interfejs i procesy kontroli, dodaje własne filtry i nadzór.
- Użytkownik – korzysta z modelu zgodnie lub niezgodnie z przeznaczeniem.
W praktyce to integrator jest „punktem nacisku” regulatorów i klientów. To on decyduje, czy model o znanych biasach trafia do rekrutacji, scoringu kredytowego czy tylko do generowania opisów produktów. Sama informacja, że „model jest open source, używamy jak wszyscy”, nie zdejmie odpowiedzialności za szkody.
Ryzyka etyczne typowe dla modeli open source
Gotowe modele open source często są trenowane na szerokich, częściowo nieprzejrzystych zbiorach danych. To generuje kilka powtarzalnych problemów:
- Bias i dyskryminacja – stereotypowe odpowiedzi, gorsze wyniki dla części grup użytkowników, asymetria językowa.
- Halucynacje – pewny ton wypowiedzi przy fałszywych informacjach, co podnosi ryzyko szkód faktycznych (np. porady medyczne, finansowe).
- Treści szkodliwe – generowanie instrukcji przemocy, nienawiści, dezinformacji.
- Możliwość rekonstrukcji danych – w ekstremalnych przypadkach model może „zapamiętać” fragmenty danych treningowych.
Kluczowe jest uświadomienie sobie, że te ryzyka nie znikają tylko dlatego, że model jest „transparentny”. Wręcz przeciwnie – otwarty kod ułatwia też osobom złośliwym obchodzenie wbudowanych ograniczeń.
Minimalny zestaw zabezpieczeń po stronie integratora
Nawet jeśli twórca modelu udostępnia go „as is”, integrator może i powinien dołożyć własne warstwy bezpieczeństwa. W praktyce sprawdzają się:
- Filtry treści wejściowych i wyjściowych – osobny klasyfikator przed i za modelem generatywnym (np. detekcja mowy nienawiści, danych osobowych).
- Limitowanie kontekstu – ograniczanie wrażliwych danych, które trafiają do promptów (np. pseudonimizacja identyfikatorów klientów).
- Rola człowieka – obowiązkowy przegląd odpowiedzi w krytycznych procesach (np. decyzje HR, decyzje kredytowe, medycyna).
- Rejestrowanie zapytań i odpowiedzi – audytowalny log, który pozwoli analizować incydenty i zgłoszenia.
Prosty przykład: firma używa open source LLM do generowania odpowiedzi w helpdesku. Zamiast puszczać wszystkie odpowiedzi w ciemno, ustawia regułę: odpowiedzi o wysokiej niepewności (np. brak dopasowanego artykułu w bazie wiedzy) trafiają do konsultanta, a nie od razu do klienta.
Etyczne ograniczenia w licencjach modelowych
Coraz więcej licencji na modele zawiera klauzule etyczne. Typowe zakazy obejmują:
- użycie do tworzenia broni lub systemów ofensywnych,
- wykorzystanie do masowej inwigilacji lub łamania praw człowieka,
- generowanie deepfake’ów bez zgody osób przedstawionych,
- tworzenie systemów, które dezinformują wyborców lub destabilizują procesy demokratyczne.
Z prawnego punktu widzenia takie klauzule bywają dyskutowane (czasem trudno je wyegzekwować), ale spełniają ważną rolę sygnału. Pokazują, że twórca jasno komunikuje obszary, które uważa za niedopuszczalne. Dla organizacji to dobry punkt odniesienia przy budowie własnych polityk AI.
Polityka AI w organizacji: prosta rama na start
Nawet mała firma korzystająca z otwartych modeli powinna mieć spisaną, choćby krótką politykę AI. Nie chodzi o wielki dokument, tylko o kilka jasnych zasad:
- Dopuszczone i zakazane use case’y – w jakich procesach wolno używać generatywnej AI, a gdzie jest to zabronione (np. decyzje kadrowe, ocena pracy).
- Zasady pracy z danymi – jakie typy danych można wysyłać do modeli, a jakie muszą być zawsze anonimizowane lub zakazane.
- Wymóg nadzoru – w jakich sytuacjach wynik modelu musi być przeglądany przez człowieka, zanim zostanie użyty.
- Odpowiedzialność – kto zatwierdza wybór modeli, kto odpowiada za audyty i zgłoszenia naruszeń.
Takie minimum regulacyjne jest szczególnie ważne, gdy pracownicy spontanicznie zaczynają korzystać z gotowych modeli (lokalnych lub chmurowych) w codziennej pracy. Bez jasnych reguł łatwo o wyciek danych, nieświadome złamanie licencji lub użycie modelu w ryzykownym kontekście.

Odpowiedzialność prawna za szkody wywołane przez modele open source
Kto odpowiada, gdy model „zrobi krzywdę”
Przy szkodach związanych z AI najczęściej patrzy się na trzy podmioty:
- Twórca modelu – zwykle ogranicza swoją odpowiedzialność w licencji („as is”, brak gwarancji, brak odpowiedzialności za szkody pośrednie).
- Integrator / dostawca usługi – ten, kto włącza model do konkretnego produktu i sprzedaje go klientom.
- Użytkownik biznesowy – firma, która wykorzystuje usługę AI w swoim procesie (np. bank, szpital, sklep internetowy).
W praktyce to integrator i użytkownik biznesowy są pierwszym celem roszczeń. Klientowi jest wszystko jedno, że w tle działa open source z GitHuba – widzi logo firmy, z którą podpisał umowę. Twórca modelu często jest w innej jurysdykcji i ma w licencji „twarde” ograniczenie odpowiedzialności.
Odpowiedzialność kontraktowa vs deliktowa
W relacjach B2B większość reguluje się umową. Warto jasno zdefiniować:
- zakres odpowiedzialności dostawcy za błędy modeli (limity kwotowe, wyłączenia),
- obowiązki klienta w zakresie prawidłowego użycia (np. nadzór człowieka, zakaz użycia w krytycznych obszarach),
- procedury obsługi roszczeń osób trzecich (np. naruszenie praw autorskich przez dane treningowe).
Poza umową zawsze pozostaje odpowiedzialność deliktowa (za czyn niedozwolony) – szczególnie przy szkodach na osobie, dyskryminacji czy poważnych naruszeniach dóbr osobistych. W tym obszarze sądy coraz częściej oczekują, że organizacja korzystająca z modeli AI miała wdrożone rozsądne środki ostrożności: testy, nadzór, możliwość złożenia skargi i korekty decyzji.
Audyt i testy jako tarcza w sporach
Przy sporach sądowych liczy się nie tylko to, że szkoda powstała, ale też jakie kroki podjęła organizacja, aby jej zapobiec. Przy modelach open source silnym argumentem obronnym może być:
- udokumentowany audyt przed wdrożeniem (testy na reprezentatywnych danych, analiza biasów),
- regularne testy regresji przy aktualizacjach modelu,
- procedury szybkiego wycofania modelu lub funkcji po wykryciu incydentów,
- kanał do zgłaszania problemów przez użytkowników i ścieżka ich obsługi.
Przykład: sklep internetowy wprowadza rekomendacje oparte na otwartym modelu. Po zgłoszeniach klientów dotyczących dyskryminacji pewnej grupy produktowej ma możliwość odtworzenia, jak model podejmował decyzje, oraz wprowadza poprawki. Dokumentacja tych działań może mieć kluczowe znaczenie, jeśli sprawa trafi do regulatora lub sądu.
Rola ubezpieczenia i odpowiedniego podziału ryzyka
Przy większych wdrożeniach AI pojawia się pytanie o ubezpieczenie odpowiedzialności. Nie każdy ubezpieczyciel ma gotowe produkty „pod AI”, ale często można objąć ryzyka związane z oprogramowaniem i błędami zawodowymi. Ważne, by:
- sprawdzić, czy polisa obejmuje szkody wynikłe z działania modeli AI,
- zobaczyć, czy nie ma wyłączeń dotyczących open source lub „eksperymentalnych technologii”,
- dostosować limity odpowiedzialności kontraktowej do realnych szkód, jakie może wyrządzić system AI.
Relacja między licencją open source a regulacjami sektorowymi
Licencja modelu to tylko jeden z warstwowych reżimów prawnych. Model może być „otwarty” i dozwolony przez twórcę, a jednocześnie niedozwolony w danym sektorze albo wymagać dodatkowych zabezpieczeń. Konflikt pojawia się najczęściej w branżach silnie regulowanych:
- Finanse – wymogi AML, przeciwdziałanie fraudom, nadzór KNF/ESMA, obowiązek wyjaśnialności przy decyzjach kredytowych.
- Medycyna – wyroby medyczne, dokumentacja kliniczna, wymogi jakościowe (np. ISO 13485), dodatkowo ochrona danych zdrowotnych.
- Telekomunikacja i infrastruktura krytyczna – wymogi ciągłości działania, bezpieczeństwa łańcucha dostaw, odporności na ataki.
W praktyce oznacza to, że zgoda z licencją open source to minimum. Dalej trzeba sprawdzić, czy konkretny sposób użycia modelu przechodzi przez filtry regulacyjne: czy wolno zautomatyzować daną decyzję, czy wymagane jest wyjaśnienie, czy regulator nie wymaga określonego typu certyfikacji.
Modele open source a nowe regulacje AI (np. EU AI Act)
Nowe regulacje, takie jak unijne rozporządzenie AI, wprowadzają dodatkową siatkę obowiązków. Szczególnie ważne są dwie role:
- dostawca systemu wysokiego ryzyka – ten, kto wprowadza system na rynek,
- użytkownik systemu wysokiego ryzyka – organizacja, która stosuje go w swoich procesach.
Nawet jeśli „goły” model jest otwarty i niekomercyjny, to gotowy system oparty na nim (np. ocena zdolności kredytowej kandydatów) może wejść do kategorii wysokiego ryzyka i uruchomić obowiązki:
- analiza ryzyka,
- dokumentacja danych i modeli,
- monitoring po wdrożeniu,
- mechanizmy nadzoru człowieka.
„Open source” nie jest tarczą przeciw regulacjom. Przeciwnie – przy wysokim ryzyku regulator może oczekiwać większej przejrzystości: opisów architektury, procesu treningu, polityki aktualizacji.
Współdzielenie odpowiedzialności w łańcuchu dostaw AI
Ekosytem AI coraz częściej wygląda jak łańcuch z kilku ogniw:
- Twórcy bazowego modelu open source.
- Podmioty fine-tuningujące i dostarczające gotowe checkpointy.
- Integratorzy budujący SaaS/API.
- Końcowe organizacje włączające system w swoje procesy.
Bez świadomego podziału odpowiedzialności w kontraktach każde ogniwo próbuję „zepchnąć” ryzyko niżej. Rozsądniejsza ścieżka to współdzielony model odpowiedzialności – podobnie jak w chmurze:
- twórca modelu – odpowiada za to, co ujawnił i zadeklarował (np. dane treningowe, znane ograniczenia, błędy bezpieczeństwa),
- dostawca usługi – za integrację, konfigurację, otoczkę bezpieczeństwa i sposób ekspozycji funkcji,
- użytkownik biznesowy – za kontekst użycia, dane wejściowe i decyzje operacyjne.
Bez takiego podziału ryzyka rośnie pokusa „bezrefleksyjnego” przerzucenia winy na otwarty projekt, co w sądzie i tak zwykle się nie obroni.
Praktyczne podejście do wyboru i integracji modeli open source
Kryteria wyboru modelu: nie tylko metryki benchmarków
Ocena modelu open source często kończy się na wynikach w benchmarkach. W praktyce przy wdrożeniach biznesowych lepiej dodać kilka „nudnych” kryteriów:
- Status projektu – czy repozytorium jest utrzymywane, ile jest otwartych bugów związanych z bezpieczeństwem.
- Jasność licencji – pełny tekst, FAQ, ewentualne dodatki (np. polityka dopuszczalnego użycia).
- Model danych treningowych – choćby ogólne informacje: czy użyto danych osobowych, treści z serwisów społecznościowych, kodu z publicznych repozytoriów.
- Historia incydentów – zgłaszane przypadki nadużyć, wycieków, głośne kontrowersje.
- Wsparcie społeczności – aktywność w dyskusjach, gotowe narzędzia do filtracji, monitoringu, oceny jakości.
Na tym etapie dobrze działa prosta tabela porównawcza kilku kandydatów z oceną 1–5 dla każdego kryterium. Decyzja przestaje wtedy opierać się wyłącznie na marketingu i głośnych nazwach.
Proces due diligence przed wdrożeniem
Przy poważniejszym wdrożeniu modelu open source przydaje się mini „due diligence” techniczno-prawne. Prosty szkielet:
- Analiza licencji
- czy licencja dopuszcza komercyjne wykorzystanie i modyfikacje,
- czy są ograniczenia branżowe lub co do skali użycia,
- jakie są wymagania co do atrybucji i udostępniania zmian.
- Ocena ryzyk danych treningowych
- czy twórca opisuje pochodzenie danych i ewentualne filtry,
- czy istnieją znane zarzuty naruszeń praw autorskich lub prywatności.
- Testy funkcjonalne i etyczne
- zestaw promptów skrojony pod konkretny use case,
- testy skrajnych scenariuszy (edge cases), wrażliwe tematy, języki mniejszościowe.
- Plan operacyjny
- kto będzie utrzymywał model,
- jak często będą robione przeglądy jakości i bezpieczeństwa,
- jak wygląda procedura „awaryjnego wyłączenia” funkcji opartej na modelu.
Architektura „obudowanego” modelu open source
Najbezpieczniej traktować otwarty model generatywny jako silnik w środku większego systemu, a nie jako jedyną linię obrony. Typowa architektura obejmuje:
- Warstwę pre-processingu – walidacja danych wejściowych, anonimizacja, ograniczanie długości kontekstu, mapowanie na bezpieczne schematy.
- Warstwę głównego modelu – jeden lub kilka modeli (ensemble) dobieranych do zadania.
- Warstwę post-processingu – filtry treści, redakcja tekstu, wstrzykiwanie disclaimers w określonych kategoriach odpowiedzi.
- Warstwę monitoringu – logi, metryki, alerty przy nietypowych zachowaniach lub wzorcach użycia.
Taki układ ułatwia zamianę modelu na inny (np. z powodu zmiany licencji lub wykrytego ryzyka prawnego) bez przepisywania całej aplikacji.
Kontrola wersji i „frozen baseline” modeli
Modele open source często są aktualizowane, pojawiają się nowe checkpointy, forki, modyfikacje. Z perspektywy odpowiedzialności i odtwarzalności istotne są:
- wersjonowanie – dokładne oznaczenie, której wersji modelu używa produkcja (hash, tag, commit),
- baseline – utrzymywanie „zamrożonej” wersji referencyjnej, do której można się cofnąć i na której wykonano audyt,
- change management – każda aktualizacja modelu przechodzi przez proces podobny do wdrażania nowej wersji aplikacji (testy, akceptacja, rollout).
Prosty błąd to podpięcie się do „latest” z repozytorium i nieświadome przejmowanie każdej zmiany twórcy. Z prawnego i operacyjnego punktu widzenia jest to proszenie się o kłopoty.

Zarządzanie danymi w projektach z użyciem modeli open source
Segmentacja danych i zasada minimalizacji
Największe ryzyka przy użyciu modeli open source pojawiają się tam, gdzie przepływają dane wrażliwe. Pomaga kilka prostych zasad:
- Segmentacja – inne środowisko i inne reguły dla danych produkcyjnych, a inne dla sandboxa i eksperymentów.
- Minimalizacja – wysyłanie do modelu tylko tych pól, które są niezbędne do zadania (np. opis problemu i kategoria, bez pełnych danych osobowych klienta).
- Pseudonimizacja – zamiana identyfikatorów na tokeny wewnętrzne, możliwe do odwrócenia tylko w bezpiecznym systemie źródłowym.
Przykład z praktyki: zespół helpdesku używa modelu do podpowiedzi odpowiedzi. Zamiast wklejać do promptu pełne dane zgłaszającego, system przesyła tylko numer zgłoszenia, kategorię problemu i skrót treści, bez imienia, adresu czy numeru telefonu.
Modele lokalne vs chmurowe z perspektywy ochrony danych
Decyzja „lokalnie czy w chmurze” ma konsekwencje licencyjne, ale przede wszystkim wpływa na ochronę danych:
- Model lokalny (on-prem / własna chmura prywatna)
- większa kontrola nad przepływem danych i logami,
- łatwiej spełnić wymagania klientów co do lokalizacji danych,
- wyższe koszty utrzymania, potrzeba zespołu z kompetencjami MLOps.
- Model w cudzej chmurze (API, managed LLM)
- szybszy start i niższy próg wejścia,
- ale konieczność analizy T&C dostawcy SaaS i zgodności z RODO/innymi regulacjami,
- dodatkowe ryzyko przekazywania danych wrażliwych poza organizację.
Przy wrażliwych procesach (zdrowie, finanse, dane pracownicze) często rozsądny kompromis to lokalny model open source z ograniczonym dostępem sieciowym i ścisłą kontrolą logów.
Anonimizacja i syntetyczne dane a trening i fine-tuning
Firmy często chcą douczyć otwarty model na swoich danych. To obszar o wysokim potencjale, ale też złożony prawnie. Kilka praktycznych zasad:
- Najpierw klasyfikacja danych – czy w zbiorze są dane osobowe, dane szczególnej kategorii, tajemnice przedsiębiorstwa.
- Anonimizacja, jeśli się da – usuwanie identyfikatorów, agregacja, zastępowanie rzadkich zdarzeń bardziej ogólnymi opisami.
- Syntetyczne dane jako bufor – w niektórych przypadkach da się wygenerować syntetyczne dane odzwierciedlające strukturę problemu, bez rzeczywistych osób.
- Umowy z podwykonawcami – jeśli trening zleca się zewnętrznej firmie, umowa powinna precyzyjnie określać zakres użycia danych, zakaz wtórnego treningu innych modeli i obowiązek kasowania danych.
Jeżeli celem jest jedynie dopasowanie modelu do schematu komunikacji, opisów produktów czy procedur wewnętrznych, często wystarczy trening na materiach już publicznych (np. dokumentacji, FAQ). To znacznie ogranicza ryzyka związane z prywatnością.
Budowanie kultury odpowiedzialnego korzystania z open source AI
Szkolenia i „guardraile” dla zespołów
Nawet najlepsza polityka AI niewiele daje, jeśli pracownicy nie rozumieją, dlaczego pewne rzeczy są zabronione. Przy wdrażaniu modeli open source przydaje się krótki, konkretny program:
- Co wolno, a czego nie – lista typowych zadań, przy których można korzystać z modeli (np. drafty maili, wsparcie w analizie dokumentów) i lista czerwonych flag (np. wklejanie całych umów lub danych klientów do publicznych narzędzi).
- Ryzyka i przykłady incydentów – prawdziwe lub anonimowe case’y: wyciek danych, błędne rekomendacje, nielegalne treści.
- Prosta ścieżka zgłaszania problemów – jeden adres mailowy lub formularz, który nie wymaga „biurokracji”.
Dobrze działa też „lista błyskawiczna” przy narzędziu: krótkie przypomnienie przy polu tekstowym, jakie typy danych są zakazane. Proste komunikaty często zatrzymują błędne zachowania zanim się wydarzą.
Rola zespołów prawnych i compliance
Zespół prawny nie musi być ekspertem od uczenia głębokiego, ale powinien:
- uczestniczyć w wstępnej selekcji modeli i licencji,
- pomagać tworzyć klauzule kontraktowe z dostawcami i klientami dotyczącymi AI,
- wspólnie z IT przygotować procedury reagowania na incydenty (np. naruszenia praw autorskich, skargi użytkowników na dyskryminację).
Przy większych organizacjach dobrym krokiem jest wyznaczenie jednego punktu kontaktowego ds. AI (niekoniecznie pełnoetatowej roli). Taka osoba koordynuje komunikację między IT, biznesem a prawnikami i pilnuje, by kolejne eksperymenty z modelami open source nie uciekały spod radaru.






