PLLuM

Family (8B / 12B / 8x7B / 70B)

Otwarta rodzina polskich modeli językowych rozwijana przez konsorcjum naukowe pod liderem Politechniki Wrocławskiej.

✓ Aktywny✓ Publiczny dostęp⚖ Open weightsLLM

Okno kontekstowe

8K (Mistral-based) / 128K (Llama 3.1-based)

tokenów

Parametry

8B / 12B / 47B (8x7B MoE) / 70B

parametrów

Data premiery

1 grudnia 2024

Dostęp:DownloadHostedWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

PLLuM (Polish Large Language Model) to rodzina otwartych modeli językowych zorientowanych na język polski, opracowana w 2024 roku przez konsorcjum polskich instytucji naukowych pod liderem Politechniki Wrocławskiej. Projekt był finansowany ze środków Ministra Cyfryzacji (dotacja celowa nr 1/WI/DBiI/2023, 14 504 392 PLN) i miał na celu stworzenie modelu wspierającego sektor publiczny i prywatny w Polsce, ze szczególnym uwzględnieniem polskich realiów językowych i kulturowych.

Rodzina obejmuje warianty bazowe (base), instrukcyjne (instruct) i dialogowe (chat) o rozmiarach 8B, 12B, 8x7B (MoE) oraz 70B parametrów. Warianty oznaczone „nc” są dostępne na licencji CC BY-NC 4.0 (non-commercial), pozostałe na licencjach dziedziczonych po modelach bazowych (Llama 3.1 Community License dla wariantów Llama-PLLuM, Apache 2.0 dla części pozostałych). Modele bazują na dostrajaniu (pretraining-continued + SFT + preference tuning) istniejących architektur — Llama 3.1 (8B, 70B), Mistral 7B i Mixtral 8x7B — na rozległym, polskim korpusie tekstów.

Projekt formalnie zakończono 31 grudnia 2024 roku; dalsze prace prowadzone są w ramach inicjatywy HIVE AI (NASK). Modele są publicznie dostępne na HuggingFace pod organizacją CYFRAGOVPL (Ministerstwo Cyfryzacji), a interaktywny czat działa na platformie pllum.clarin-pl.eu utrzymywanej przez Politechnikę Wrocławską.

Klasyfikacja

LLM

Dostęp i wdrożenie

PobieranieHostowane

LokalnieChmura

Wagi: Open weights

Kluczowe parametry

📏 Kontekst: 8K (Mistral-based) / 128K (Llama 3.1-based)

🧩 Parametry: 8B / 12B / 47B (8x7B MoE) / 70B

✓ Fine-tuning

📥 Wejście: tekst

Specyfikacja techniczna

Okno kontekstowe

8K (Mistral-based) / 128K (Llama 3.1-based)

tokenów

Parametry

8B / 12B / 47B (8x7B MoE) / 70B

parametrów

Licencja

CC BY-NC 4.0 (warianty „nc”) / Llama 3.1 Community License / Apache 2.0 (zależnie od wariantu)

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

text

⬆ Wyjście (Output)

text

Możliwości i zastosowania

Natywne możliwości modelu

Wielojęzyczność

Zdolność modelu do rozumienia i generowania treści w wielu językach.

Kategoria: language

Długi kontekst

Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.

Kategoria: reasoning

Rozumowanie

Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.

Kategoria: reasoning

Kodowanie

Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.

Kategoria: coding

Architektura techniczna

Rdzeń architektury (Core Architecture)

TRTransformer

Forma modelu (Model Form)

LLLLM

Techniki trenowania (Training Techniques)

PRPretraining SFSFT ITInstruction Tuning RFRFT

Źródła i powiązane strony

4 źródła

WebPLLuM — oficjalna strona projektupllum.org.pl RepoCYFRAGOVPL — modele PLLuM na HuggingFacehuggingface.co WebCzat PLLuM (clarin-pl.eu)pllum.clarin-pl.eu WebHIVE AI — kontynuacja prac (NASK)nask.pl

Przeglądaj powiązane tematy

🧠 Transformer 🧠 LLM Wszystkie modele llm