Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Totuus OpenAI:n hiljaisuuden takana GPT-4:llä

Seuraava artikkeli auttaa sinua: Totuus OpenAI:n hiljaisuuden takana GPT-4:llä

Maaliskuussa OpenAI julkaisi GPT-4:n suurella fanfaarilla, mutta horisontin ylle kohotti tumma pilvi. Sekä tutkijat että tekoälyn harrastajat panivat yritystä julkisuuteen, koska se ei julkistanut mallista mitään yksityiskohtia, kuten parametrien kokoa tai arkkitehtuuria. Huippu tekoälytutkija on kuitenkin spekuloinut GPT-4:n sisäistä toimintaa paljastaen, miksi OpenAI päätti piilottaa nämä tiedot – ja se on pettymys.

OpenAI:n toimitusjohtaja Sam Altman totesi kuuluisasti GPT-4:ssä, että “ihmiset pyytävät pettymään ja tulevat olemaan”, puhuen mallin mahdollisesta koosta. Huhumyllyt ennen mallin julkaisua ehdottivat, että siinä olisi biljoonia parametreja ja se olisi parasta mitä maailma on koskaan nähnyt. Todellisuus on kuitenkin toinen. Tehdessään GPT-4:stä GPT-3.5:tä paremmaksi OpenAI on saattanut purra enemmän kuin mitä se olisi voinut pureskella.

8 GPT:tä trenssitakissa

George Hotz, maailmankuulu hakkeri ja ohjelmistosuunnittelija, esiintyi äskettäin podcastissa spekuloidakseen GPT-4:n arkkitehtonisesta luonteesta. Hotz totesi, että malli saattaa koostua kahdeksasta erillisestä mallista, joista jokaisessa on 220 miljardia parametria. PyTorchin toinen perustaja Soumith Chintala vahvisti tämän spekulaation myöhemmin.

Vaikka tämä asettaa GPT-4:n parametrien määräksi 1,76 biljoonaa, huomionarvoista on, että kaikki nämä mallit eivät toimi samanaikaisesti. Sen sijaan niitä käytetään sekoituksena asiantuntevaa arkkitehtuuria. Tämä arkkitehtuuri tekee jokaisesta mallista eri komponentteja, joita kutsutaan myös asiantuntijamalleiksi. Jokainen näistä malleista on hienosäädetty tiettyä tarkoitusta tai kenttää varten ja pystyy tarjoamaan parempia vastauksia kyseiselle alueelle. Sitten kaikki asiantuntijamallit toimivat yhdessä täydellisen mallin kanssa hyödyntäen asiantuntijamallien kollektiivista älykkyyttä.

Tällä lähestymistavalla on monia etuja. Yksi niistä on tarkemmat vastaukset, koska malleja on hienosäädetty eri aiheisiin. MoE-arkkitehtuuri soveltuu myös helposti päivitettäväksi, koska mallin ylläpitäjät voivat parantaa sitä modulaarisesti, toisin kuin monoliittisen mallin päivittämisessä. Hotz spekuloi myös, että malli saattaa luottaa iteratiiviseen päättelyyn saadakseen parempia tuloksia. Tämän prosessin kautta mallin tulos tai päättelytulos jalostetaan useiden iteraatioiden avulla.

🔥 Empfohlen:  Kuinka integroida OpenAI:n ChatGPT Slackin kanssa?

Tämä menetelmä saattaa myös antaa GPT-4:lle mahdollisuuden saada syötteitä jokaisesta asiantuntijamalleistaan, mikä voisi vähentää mallin hallusinaatioita. Hotz totesi, että tämä prosessi voitaisiin tehdä 16 kertaa, mikä nostaisi huomattavasti mallin käyttökustannuksia. Tätä lähestymistapaa on verrattu vanhaan tropiikkiin, jossa kolme lasta pukeutuu aikuiseksi naamioituneeseen trenssitakkiin. Monet ovat vertailleet GPT-4:ää kahdeksaan GPT-3:een trenssitakissa, jotka yrittävät vetää villaa maailman silmien yli.

Kulmien leikkaaminen

Vaikka GPT-4 saavutti vertailuarvot, joiden kanssa GPT-3:lla on ollut vaikeuksia, MoE-arkkitehtuurista näyttää tulleen OpenAI:n tuskallinen kohta. Nyt poistetussa haastattelussa Altman myönsi OpenAI:n kohtaamat skaalausongelmat, erityisesti GPU-pulan suhteen.

Johtopäätöksen suorittaminen 16 kertaa mallissa, jossa on MoE-arkkitehtuuri, lisää varmasti pilvikustannuksia samassa mittakaavassa. Kun ChatGPT:n miljoonia käyttäjiä räjäytetään, ei ole yllätys, että jopa Azuren supertietokoneesta jäi virtaa vajaaksi. Tämä näyttää olevan yksi suurimmista OpenAI:n tällä hetkellä kohtaamista ongelmista, sillä Altman totesi, että halvempi ja nopeampi GPT-4 on yrityksen tärkein prioriteetti tällä hetkellä.

Tämä on myös johtanut raportoituun ChatGPT:n lähdön laadun heikkenemiseen. Kaikkialla Internetissä käyttäjät ovat raportoineet, että jopa ChatGPT Plus:n vastausten laatu on laskenut. Löysimme ChatGPT:n julkaisuilmoituksen, joka näyttää vahvistavan tämän ja jossa todettiin: “Olemme päivittäneet ChatGPT-mallin suorituskykyä ilmaisessa sopimuksessamme palvellaksemme enemmän käyttäjiä”. Samassa huomautuksessa OpenAI myös ilmoitti käyttäjille, että Plus-käyttäjillä on oletusarvoisesti mallin “Turbo”-versio, joka on optimoitu päättelynopeuteen.

Toisaalta API-käyttäjät näyttävät välttäneen tämän ongelman kokonaan. Reddit-käyttäjät ovat huomanneet, että muut OpenAI-sovellusliittymää käyttävät tuotteet tarjoavat parempia vastauksia heidän kyselyihinsä kuin edes ChatGPT Plus. Tämä saattaa johtua siitä, että OpenAI-sovellusliittymän käyttäjien volyymi on pienempi kuin ChatGPT-käyttäjillä, minkä seurauksena OpenAI leikkaa ChatGPT:n kustannuksia, vaikka sovellusliittymää ei huomioida.

Hullussa kiireessä saada GPT-4 markkinoille näyttää siltä, ​​​​että OpenAI on leikannut kulmat. Vaikka väitetty MoE-malli on hyvä edistysaskel GPT-sarjan tehostamisessa, sen kohtaamat skaalausongelmat osoittavat, että yritys on saattanut vain pureskella enemmän kuin se ehtii pureskella.