Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

14 avoimen lähdekoodin LLM:ää, jotka sinun on tiedettävä

Seuraava artikkeli auttaa sinua: 14 avoimen lähdekoodin LLM:ää, jotka sinun on tiedettävä

Näyttää siltä, ​​​​että kaikki ovat pakkomielle uusimpaan villitykseen: suuriin kielimalleihin (LLM). Nälkä näiden dataa syövien behemotien suhteen vain kasvaa. GPT-3:sta Megatroniin suurempien ja parempien resurssien etsintä ei ole läheskään ohi. Joten olitpa kieltenkäsittelyn aloittelija tai kokenut ammattilainen, tässä on yhteenveto kaikista avoimen lähdekoodin LLM-yrityksistä, jotka ovat osuneet näyttämölle tähän mennessä. Valmistaudu nörttimään!

Dolly & Dolly 2.0

Muutaman viikon sisällä Dollyn julkaisusta Databricks on julkistanut Dolly 2.0:n, mallin kaupalliseen käyttöön ilman, että API-pääsystä tai tietojen jakamisesta kolmansien osapuolten kanssa tarvitsee maksaa. Malli on mahdollinen ratkaisu oikeudelliseen epäselvyyteen, joka liittyy suuriin kielimalleihin, jotka on aiemmin koulutettu ChatGPT-tulostukseen.

KUKINTA

Hugging Face -tiimin esittämä maailman suurin avoimen lähdekoodin laaja kielimalli. BigScience syntyi BLOOMin tuhansien loistavien mielien yhteistyöllä eri puolilta maailmaa.

GLM-130B

Malli ylittää vaikuttavasti GPT-3:n ja suurimman kiinan kielen mallin useissa vertailuissa, tämä malli on todellinen pelin muuttaja. Mutta siinä ei vielä kaikki – siinä on myös ainutlaatuinen skaalausominaisuus, joka mahdollistaa tehokkaan päättelyn edullisista GPU:ista. Paras osa? Mallin painot, koodit ja harjoituslokit ovat kaikki julkisesti saatavilla. Sano hyvästit kielenkäsittelyn rajoituksille ja hei GLM-130B!

GPT-Neo, GPT-NeoX & GPT-J

NLP-maailmassa GPT-Neo-, GPT-J- ja GPT-NeoX-mallit loistavat tarjoten tehokkaan työkalun muutamaan otteeseen oppimiseen.

EleutherAI:n mielen ansiosta nämä mallit on muotoiltu ja asetettu yleisön saataville avoimen lähdekoodin versioina GPT-3:sta, jonka OpenAI on pitänyt lukon ja avaimen alla. GPT-J ja GPT-Neo koulutettiin mahtavaan Pile-tietoaineistoon, kokoelmaan kielellisiä tietolähteitä, jotka kattavat eri alueet, mikä tekee niistä monipuolisia ja mukautettavissa erilaisiin luonnollisen kielen käsittelytehtäviin.

Mutta tämän trion kruununjalokivi on GPT-NeoX, Megatron-LM:n ja Metan DeepSeedin perustalle rakennettu malli, joka on suunniteltu loistamaan grafiikkasuorittimien näyttämöllä. Sen massiiviset 20 miljardia parametria tekevät siitä suurimman julkisesti saatavilla olevan mallin. GPT-NeoX on konseptin todiste, joka työntää muutaman kerran tapahtuvan oppimisen rajoja entisestään.

🔥 Empfohlen:  Verkkokaupan tilastot ja faktat, jotka sinun on tiedettävä vuonna 2023

GPT-2

Edeltyään alun perin GPT-2:ta yhdeksän kuukauden ajan, koska pelättiin sen mahdollisuudesta levittää disinformaatiota, roskapostia ja valeuutisia, OpenAI julkaisi pienempiä, vähemmän monimutkaisia ​​versioita testaustarkoituksiin. Marraskuun blogissa OpenAI kertoi, että se ei ole havainnut “ei vahvoja todisteita väärinkäytöstä”, ja sen seurauksena koko GPT-2-malli on käytettävissä.

PaLM

Googlen tekoäly oli eri mieltä tästä “isompi sitä parempi” -oletuksesta LLM-kilpailussa, jossa mallien koko on ollut huomion herättävä tekijä. Tutkimuksessa havaittiin, että isommat kielimallit toimivat paremmin, koska ne voivat oppia aiemmista tehtävistä tehokkaammin. Tämän perusteella Google loi PaLM- tai Pathways Language Model -mallin, jolla on 540 miljardia parametria ja joka on vain dekooderille tarkoitettu Transformer-malli.

VALITA

Meta teki suuren loisteen toukokuussa 2022 julkaisemalla OPT (Open Pre-trained Transformer) -mallinsa. Nämä muuntajat voivat käsitellä kielitehtäviä ennennäkemättömässä mittakaavassa 125 miljoonasta 175 miljardiin parametriin.

Voit ladata pienemmät versiot Githubista, mutta suurin on saatavilla vain pyynnöstä.

CerebrasGPT

Cerebras, tekoälyinfrastruktuuriyritys, teki rohkean liikkeen julkaisemalla seitsemän avoimen lähdekoodin GPT-mallia. Nämä mallit, mukaan lukien painot ja harjoitusreseptit, ovat yleisön saatavilla ilmaiseksi Apache 2.0 -lisenssillä, mikä haastaa nykyisen suljettujen ovien teollisuuden omat järjestelmät.

Flan-T5


Google AI julkaisi avoimen lähdekoodin kielimallin – Flan-T5:n, joka pystyy käsittelemään yli 1 800 erilaista tehtävää. Tutkijat väittivät, että Flan-T5-mallin kehittyneet kehotukset ja monivaiheiset päättelyominaisuudet voisivat johtaa merkittäviin parannuksiin.

Laama


Meta julkisti LLaMA:n helmikuun 2023 lopussa. Toisin kuin sen vastineet, OpenAI:n ChatGPT ja Microsoftin Bing, LLaMA ei ole yleisön saatavilla, mutta sen sijaan Meta julkaisi sen avoimen lähdekoodin pakettina, johon tekoälyyhteisö voi pyytää pääsyä.

Mutta vain viikko sen jälkeen, kun Meta alkoi hyväksyä pyyntöjä päästä LLaMA:han, malli vuoti verkkoon lähettäen shokkiaaltoja teknologiayhteisön läpi.

🔥 Empfohlen:  Amazon FBA vs. dropshipping: kumpi sopii sinulle?

Lue täältä: 7 tapaa, joilla kehittäjät hyödyntävät Metan LLaMAa

Alpakka

Stanfordin yliopiston saleista nousi Alpaca. Malli luotiin hienosäätämällä LLaMA 7B:tä yli 50 000 esittelyllä GPT 3.5:n ohjeiden mukaisesti. Se koulutettiin ja testattiin vain 600 dollarilla miljoonien sijaan.

Julkaisunsa jälkeen Alpacaa on pidetty läpimurrona. Vaikka se alkoi pienestä Homer Simpson -botista, malli osoitti nopeasti monipuolisuutensa.