Evolutionary Model Merge

Method using evolutionary algorithms to automatically discover effective weight and layer combinations of open-source foundation models.

🔬 Research🔬 Research only⚖ Open weightsWyspecjalizowane AIModel multimodalnyLLM

Parametry

7B / 10B

parametrów

Data premiery

21 marca 2024

🏢Sakana AIProducent

Dostęp:DownloadHostedWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

Evolutionary Model Merge to metoda opracowana przez Sakana AI, ogłoszona 21 marca 2024 roku, automatyzująca tworzenie nowych modeli fundamentalnych poprzez łączenie istniejących modeli open-source przy użyciu algorytmów ewolucyjnych (CMA-ES). Metoda działa w dwóch komplementarnych przestrzeniach: Parameter Space (PS) — ewolucyjne mieszanie wag wielu modeli — oraz Data Flow Space (DFS) — ewolucyjne wybieranie i porządkowanie warstw z różnych modeli źródłowych. Oba podejścia można łączyć, co pozwala odkrywać nieintuicyjne, ale skuteczne kombinacje, których ekspert nie wybrałby ręcznie.

W ramach pierwszego wydania Sakana AI zaprezentowała trzy modele dla języka japońskiego: EvoLLM-JP (japoński LLM matematyczny w wariantach 7B i 10B, powstały z połączenia Shisa Gamma 7B v1, WizardMath-7B-V1.1 i Abel-7B-002, a także wariant EvoLLM-JP-A z Arithmo2-Mistral-7B), EvoVLM-JP (japoński model wizyjno-językowy 7B z LLaVA-1.6-Mistral-7B i Shisa Gamma 7B v1) oraz EvoSDXL-JP (japońskojęzyczny dyfuzyjny model SDXL z 4-krokową inferencją).

EvoLLM-JP osiągnął 52,0% (7B) i 55,6% (10B) na MGSM-JA, przewyższając wszystkie japońskie LLM-y poniżej 70B parametrów oraz wcześniejsze 70B SOTA. EvoVLM-JP uzyskał 19,70 ROUGE-L na JA-VG-VQA-500 oraz 51,25 na JA-VLM-Bench-In-the-Wild, bijąc model bazowy LLaVA-1.6-Mistral-7B i wcześniejsze japońskie VLM-y. Praca została opublikowana w Nature Machine Intelligence 27 stycznia 2025 roku.

Klasyfikacja

Wyspecjalizowane AIModel multimodalnyLLM

Dostęp i wdrożenie

PobieranieHostowane

LokalnieChmura

Wagi: Open weights

Kluczowe parametry

🧩 Parametry: 7B / 10B

📥 Wejście: tekst, obraz

Specyfikacja techniczna

Parametry

7B / 10B

parametrów

Licencja

Apache 2.0 (code, EvoLLM-JP-A-v1-7B, EvoVLM-JP-v1-7B); Microsoft Research License (EvoLLM-JP-v1-7B/10B — research-only)

Modalności

⬇ Wejście (Input)

textimage

⬆ Wyjście (Output)

text

Wyniki benchmarków

6 benchmarków

MGSM-JA

Accuracy · EvoLLM-JP-v1-7B, Japanese math word problems

52.0%

📄 Sakana AI / arXiv:2403.13187

Surpasses base models Shisa Gamma 7B (9.6), WizardMath-7B-V1.1 (18.4), Abel-7B-002 (30.0).

MGSM-JA

Accuracy · EvoLLM-JP-v1-10B

55.6%

📄 Sakana AI / arXiv:2403.13187

MGSM-JA

Accuracy · EvoLLM-JP-A-v1-7B (Apache 2.0 variant)

52.4%

📄 Sakana AI / GitHub README

Japanese lm-evaluation-harness (avg of 9 tasks)

Average score · EvoLLM-JP-v1-7B; exceeds prior 70B Japanese SOTA

70.5

📄 Sakana AI / arXiv:2403.13187

JA-VG-VQA-500

ROUGE-L · EvoVLM-JP-v1-7B Japanese visual question answering

19.70

📄 Sakana AI / arXiv:2403.13187

JA-VLM-Bench-In-the-Wild

ROUGE-L · EvoVLM-JP-v1-7B; beats LLaVA-1.6-Mistral-7B (41.10) and Japanese Stable VLM (40.50)

51.25

📄 Sakana AI / arXiv:2403.13187

Źródła i powiązane strony

8 źródeł

WebEvolutionary Model Merge - Sakana AIsakana.ai RepoEvoLLM GitHubgithub.com PaperEvolutionary Optimization of Model Merging Recipes (arXiv:2403.13187)arxiv.org PaperEvolutionary optimization of model merging recipes — Nature Machine Intelligence (2025)nature.com RepoSakanaAI/EvoLLM-JP-v1-7B (Hugging Face)huggingface.co RepoSakanaAI/EvoLLM-JP-v1-10B (Hugging Face)huggingface.co RepoSakanaAI/EvoLLM-JP-A-v1-7B (Hugging Face)huggingface.co RepoSakanaAI/EvoVLM-JP-v1-7B (Hugging Face)huggingface.co

Przeglądaj powiązane tematy

Wszystkie modele specialized model Wszystkie modele multimodal model