[ PROFIL: OPIS ]Opis firmy
Opis firmy
Common Crawl Foundation to zarejestrowana w Kalifornii organizacja non-profit 501(c)(3), założona w 2007 roku przez Gil Elbaza z misją demokratyzacji dostępu do danych internetowych. Organizacja buduje i utrzymuje otwarty repozytori danych z pełzania sieci (web crawl), dostępny bezpłatnie dla każdego. Dane zbierane są przez pełzacz CCBot (oparty na Apache Nutch), a archiwum przechowywane jest na Amazon S3 w ramach AWS Open Data Sponsorship Program. Zbiór danych liczy ponad 250 miliardów stron i jest rozbudowywany co miesiąc o kilka miliardów nowych stron. Do 2024 roku dane Common Crawl były cytowane w ponad 10 000 artykułów naukowych. Organizacja była i jest kluczowym dostawcą danych treningowych dla czołowych modeli językowych, w tym GPT-3 i GPT-4 (OpenAI), Gemini (Google DeepMind), LLaMA (Meta) oraz modeli Anthropic. Siedziba rejestrowa znajduje się w Beverly Hills (Kalifornia, USA). Przez długi czas Common Crawl zatrudniał jedną osobę; od 2023 roku organizacja rozbudowuje swój zespół i aktywnie pozyskuje dotacje. Dyrektorem wykonawczym jest Rich Skrenta, a przewodniczącym rady – Gil Elbaz.
[ PROFIL: KLASYFIKACJA ]Klasyfikacja i profil
Klasyfikacja i profil
[ PROFIL: GEOGRAFIA ]Geografia i obecność
Geografia i obecność
USA
Beverly Hills
California
[ FINANSE: SKARBIEC ]Partnerstwa · Finansowanie · Wycena
Partnerstwa · Finansowanie · Wycena
Finansowana przez Elbaz Family Foundation Trust (główny sponsor przez pierwszych ~15 lat) oraz datki od firm AI: OpenAI i Anthropic (każda po 250 000 USD w 2023 r.) i innych podmiotów z branży AI. Przechowywanie danych na AWS opłacane w ramach programu AWS Open Data Sponsorship.
[ STRUKTURA: RELACJE ]Relacje organizacyjne
Relacje organizacyjne
Amazon Web Services sponsoruje przechowywanie danych Common Crawl w ramach programu AWS Open Data Sponsorship.