Gekissimo.net - Opi ansaitsemaan rahaa webilläsi Internetissä!

Mitä seuraavaksi generatiivisessa tekoälyssä?

Seuraava artikkeli auttaa sinua: Mitä seuraavaksi generatiivisessa tekoälyssä?

Generatiivinen tekoäly on kuin henkilökohtainen luova nero rinnallasi. Merkittävällä kyvyllään analysoida malleja ja kehittää uutta sisältöä niiden pohjalta, generatiivinen tekoäly voi luoda kaikkea upeasta digitaalisesta taiteesta alkuperäisiin musiikkisävellyksiin, ihmisen kaltaiseen tekstiin ja paljon muuta.

Generatiivisen tekoälyn todella siisti tila tuo kuitenkin mukanaan monimutkaisen ongelman piratismista ja tekijänoikeusloukkauksista tekoälytaiteessa. Siitä huolimatta viimeisen kahden vuoden aikana segmentissä on ollut ilmiömäistä kasvua.

Eksklusiivisessa haastattelussa Tohtori Satya Mallickkertoi OpenCV:n toimitusjohtaja Analytics India -lehti Hän uskoo, että generatiivisen tekoälyn suurin läpimurto on suurten kielimallien tai perusmallien kehittäminen, ja toteaa, että muuntajamallit, kuten esimerkiksi näkömuuntajissa käytetyt, ovat merkittävä innovaatio tällä alueella.

Mallickin mukaan seuraava generatiivisen tekoälyn tarjonta on useita tuloja ja multimedialähtöä. Toisin sanoen a multimodaalinen lähestymistapa.

Microsoft esitteli äskettäin multimodaalisen suurkielimallin (MLLM), nimeltään Kosmos-1. Tekoälytutkimusstudio Alethea.AI julkisti CharacterGPT:n, joka luo merkkejä tekstistä. Kaksi vuotta sitten Google AI julkaisi myös MURAL: Multimodal, Multitask Representations Across Languages ​​-mallin kuvan ja tekstin yhteensovittamista varten. Se käyttää multitask-oppimista, joita sovelletaan kuva-teksti-pareihin yhdessä käännösparien kanssa, jotka kattavat yli 100 kieltä.

Mallick kuitenkin sanoi: “Siihen liittyy kaksi perustavanlaatuista rajoitusta, mukaan lukien se, kuinka paljon dataa voidaan saada – onko olemassa tapa välttää tietojen merkitsemisen tarve ja laskentatehon puute – vaikka sen odotetaan kasvavan tulevaisuudessa ”.

Mallick, IIT-Kharagpurin alumni, on myös Kaliforniassa toimivan tietokonenäköyrityksen Big Visionin perustaja. Vuonna 2006, jolloin kukaan ei todellakaan tiennyt tekoälystä tai sen valtavasta potentiaalista, Mallick oli mukana perustamassa TAAZ:n – tietokonenäköyrityksen, joka loi visio- ja oppimisratkaisuja kauneus- ja muotiteollisuudelle.

Intel perusti OpenCV:n, avoimen lähdekoodin tietokonenäkö- ja koneoppimisohjelmistokirjaston vuonna 1999. Gray Bradsky, entinen Intelin tietokonenäkö-insinööri, kehitti sen pääosin Venäjältä kotoisin olevan insinööriryhmän kanssa. Hän kehitti OpenCV:n ensimmäiset iteraatiot työskennellessään Intelillä. Vuonna 2002 he julkaisivat ohjelmiston version 0.9 avoimena lähdekoodina.

🔥 Empfohlen:  Mitä voit tehdä ja mitä et voi tehdä, kun markkinoit verkkovape-kauppaa

Yritys lanseerasi äskettäin kaksi uutta kurssia osana Kickstarter-kampanjaansa siitä, kuinka taidetta voidaan luoda tehokkaasti tekoälyn avulla. Ensimmäinen kurssi,AI Art Generation kaikille‘ ei vaadi tekoälyn tai ohjelmoinnin taustaa, kun taas toinen kurssi, ‘Advanced AI Art Generation‘, vaatii ohjelmoinnin perustiedot.

Tekoälyn luomalla taiteella on voima mullistaa taidemaailma ja paljastaa tutkimattomia mahdollisuuksia. Se tuo kuitenkin myös monimutkaisen piratismin ja tekijänoikeusloukkauksen haasteen, mikä herättää huolta omistajuudesta ja immateriaalioikeuksista.

Äskettäin Midjourneyn ja Stability AI:n kaltaiset kuvanluontialustat haastettiin oikeuteen taiteilijoiden teosten käyttämisestä generatiivisten tekoälyalgoritmiensa kouluttamiseen, mikä raivostutti taiteilijayhteisön. Samaan aikaan Shutterstock on ottanut vastuullisemman asenteen ottamalla käyttöön oman tekoälytyökalunsa, toisin kuin Getty Images, joka on kieltänyt kuviensa käytön generatiivisessa tekoälytaiteessa.

Tohtori Mallick veti yhtäläisyyksiä YouTuben alkuvuosien ja nykyisen tekijänoikeusuhan välillä. Hän sanoi, että YouTuben kaltainen ratkaisu, jossa Googlen kaltainen suuryritys tulee kuvaan, neuvottelee sopimuksista ja maksaa tekijänoikeuksien haltijoille, voisi toimia täällä.

ChatGPT vs DALL.E

OpenAI:n suositusta chatbotista ChatGPT:stä on tullut suosittu nimi, sillä se keräsi alle 100 miljoonaa käyttäjää alle kolmessa kuukaudessa. Helmikuussa 2023 ChatGPT:llä on yli 25 miljoonaa päivittäistä käyntiä. Mutta tekstistä kuvaksi -mallien, kuten OpenAI:n DALL-E:n tai StabilityAI:n vakaan diffuusion, käyttöönottonopeudessa on selvä ero ChatGPT:hen verrattuna.

Mallick selitti, että yksi tärkeimmistä syistä, miksi ChatGPT:llä on niin korkea käyttöönottoprosentti, on se, että kirjoittaminen on jokaisessa työssä tarvittava ensisijainen taito, olitpa sitten koodaaja, kirjailija tai sosiaalisen median johtaja. Jopa Coca-Cola käyttää generatiivista tekoälyä markkinoinnissaan OpenAI:n ja Bain & Companyn avulla.

”Kolme peruskoulussa opetettavaa taitoa ovat lukeminen, kirjoittaminen ja laskeminen, eivät kuvataide tai valokuvaus, sillä ne ovat korkeatasoista taitoa. Lisäksi NLP-mallin opettaminen tekstille on helpompaa, koska se on vähemmän intensiivistä kuin kuvadata.”

🔥 Empfohlen:  5 parasta Shopify-tilaussovellusta toistuvaan tuloon vuonna 2023

Lisäksi generatiivinen tekoäly vahvistuu ja kehittyy entistä kehittyneempään tutkijoiden yhdistäessä erilaisia ​​tekniikoita ja lähestymistapoja. Hyödyntämällä NLP:n ja tietokonenäön vahvuuksia Stable Diffusion -mallit ovat merkittävä edistysaskel generatiivisessa tekoälyssä.

Perinteiset generatiiviset mallit, kuten generative adversarial networks (GAN) olivat rajallisia kykyjensä ymmärtää maailmaa, koska niiltä puuttui käsitys kielestä. Sillä aikaa GANs pystyivät luomaan realistisen näköisiä kuvia, niitä piti kouluttaa tietyillä tietokokonaisuuksilla, kuten kuvilla ihmiskasvoista tai kissoista.

Verrattuna, vakaa diffuusio mallit hyödyntävät tekstidatasta saatua tietoa ymmärtääkseen, kuinka sanat ryhmittyvät yhteen ja liittyvät maailmaan. Näin he voivat luoda monimutkaisempia ja monipuolisempia kuvia turvautumatta tiettyihin tietokokonaisuuksiin.

”Vakaat diffuusiomallit ovat merkittävä edistysaskel generatiivisessa tekoälyssä juuri siksi, että ne eivät ole riippuvaisia ​​ohjatusta oppimisesta. Hyödyntämällä ohjaamattomasta oppimisesta saatua tietoa, nämä mallit voivat luoda monimutkaisia ​​ja vaihtelevia kuvia ilman tietojen manuaalista merkitsemistä, mikä tekee niistä joustavampia”, hän sanoi.

Table of Contents