Google BERT vs. Smit algoritmleri bilelikde işleýär - Semalt syn




Google ýakynda täze NLP algoritmi SMITH-de gözleg işini çap etdi. Bu kagyz, SEO hünärmenleriniň köpüsine SERP reýtinginde ýokarlanjak ýa-da peseljek kepillikler barada maglumat berdi. Muňa garamazdan, bu ýerdäki aladamyz, bu täze SMITH algoritmini BERT bilen nädip deňeşdirýär?

Google tarapyndan neşir edilen kagyzda SMITH-iň uzyn gözleg soraglaryna we uzyn resminamalara düşünmekde BERT-den ýokarydygyny öňe sürdüler. SMITH-i şeýle gyzykly edýän zat, BERT-iň sözler we sözlemler bilen edýän işine meňzeş resminamanyň içindäki böleklere düşünip biler. SMITH-iň bu kämilleşdirilen aýratynlygy, has uzyn resminamalara aňsatlyk bilen düşünmäge mümkinçilik berýär.

Furtheröne has öňe gitmezden ozal, SMITH-iň google algoritmlerinde ýaşamaýandygyny size habar bermelidiris. Ouröne çaklamalarymyz dogry bolsa, geçiş indeksirlemesi bilen birlikde işe giriziler ýa-da ondan öňe geçer. SEP-de nädip tertipleşdirmelidigini öwrenmek bilen hakykatdanam gyzyklanýan bolsaňyz, Maşyn öwrenmek hökmany suratda bu gyzyklanmanyň gapdalyndan geçer.

Şeýlelik bilen mowzuga gaýdyp gelsek, BERT çalşyljakmy? Internetdäki giň, ygtybarly we şonuň üçin has uzyn SMITH bilen has gowy işleýän resminamalar bolmazmy?

Geliň, has öňe geçeliň we netijä gelenimizi göreliň. SMITH ygtybarly we inçe resminamalary okamak işini hem edip biler. Bazooka ýaly pikir ediň. Gapylary açyp, uly zyýan ýetirip biler.

Ilki bilen, näme üçin BERT ýa-da SMITH?

Bu ýerdäki hakyky sorag, gözleg motorynyň gözleg netijelerini bermek üçin Tebigy Okuw gaýtadan işlemegini talap etmegidir. Jogap ýönekeý. Gözleg motorlary gözleg motoryna düşünmek setirlerinden ýa-da açar sözlerden zatlara ýa-da web sahypalaryna geçişinde NLP talap edýär.

Google-yň pikiri ýok ýerinde, açar sözlerden başga sahypada başga näme bolup biler ýa-da mazmunyň indekslenmegi gözleg gözlegine degişlilikde manylymy. NLP-iň kömegi bilen, Google gözleg talaplaryna ýazylan nyşanlaryň mazmunyna düşünip biler.
NLP-iň kömegi bilen, Google "derýa kenary" we "bank hasaby" diýlende ulanyjynyň niýetini tapawutlandyryp biler. Şeýle hem, "Karolin dostlary bilen içgi, içgiler, pint, ale, piwo € for for" ýaly sözlere tebigy däl diýip düşünip biler.

SEO hünärmenleri hökmünde gözleg talaplaryna düşünmegiň uzak ýol geçendigini aýtmalydyrys. Iň gowusy, geçmişde internetde dogry makalalary tapmak gaty kyndygyna ynanýarsyňyz.

BERT-e düşünmek

BERT häzirki wagtda köpler üçin, esasanam çylşyrymly dil gurluşlaryna düşünmek meselesinde iň oňat NLP modeli hökmünde işleýär. Köpler ilkinji algoritm häsiýetini bu algoritmdäki iň uly böküş hasaplaýarlar. BERT çepden saga okaýan algoritmiň ýerine, sözlere kontekstine baglylykda düşünip biler. Şeýlelik bilen, gözlegde goýlan aýratyn sözler üçin netije bermez, gözleg gözlegindäki sözleriň köpçülikleýin manysyna esaslanýan indeks web sahypalary.

Düşünmegiňizi aňsatlaşdyrmak üçin bir mysal:

GÖRNÜŞ ÇYRY

Bu sözlemi çepden saga, "ýagtylyk" sözüne ýeteniňde düşündirjek bolsaň, ýük awtoulagyny yşyk bilen bir zat diýip kesgitlärdiň. Sebäbi ýük maşyny beýannamada yşykdan öň geldi.

Trucköne ýük awtoulaglaryndaky zatlary toparlara bölmek islesek, "ýeňil" goýup bileris, sebäbi "ýük awtoulagyndan" öň görmeýäris.

Beýanaty diňe bir tarapa garamak kyn.

Mundan başga-da, BERT-iň şeýle ajaýyp bolmagynyň başga bir gizlin peýdasy bar we bu, öňki modeller bilen deňeşdirilende has az çykdajy bilen diliň netijeli işlenmegine mümkinçilik berýär. Hakykatdanam, ony tutuş webde ulanmak islän wagty göz öňünde tutmaly möhüm faktor.

Tokenleriň ulanylmagy BERT bilen bilelikde gelen başga bir ewolýusiýa. BERT-de 30,000 bellik bar we bularyň her biri, 30,000-den başga bir söz bar bolsa, simwollar we bölekler üçin goşmaça belgiler bilen umumy sözi aňladýar.

Tokenleri we transformatorlary gaýtadan işlemek ukybynyň üsti bilen BERT mazmuna düşündi, bu hem sözlemlere ýeterlik düşünmek ukybyny berdi.

Şeýlelik bilen "ýaş aýal kenara gitdi. Soň bolsa derýanyň kenarynda oturdy we derýanyň akymyna syn etdi" diýsek.

BERT bu sözlemlere dürli bahalary bellär, sebäbi olar iki dürli zady göz öňünde tutýarlar.

SMITH-e düşünmek

Soňra has uly resminamalary gaýtadan işlemek üçin has gowy çeşmeler we sanlar bilen algoritm SMITH gelýär. BERT resminama üçin takmynan 256 belgi ulanýar we bu çäkden geçende, optimal işlemek üçin hasaplama bahasy gaty ýokary bolýar. Munuň tersine, SMITH her resminama üçin 2424 belgi alyp bilýär. Bu, BERT ulanýan belginiň sany takmynan 8X.

Hasaplama çykdajylarynyň bir NLP modelinde näme üçin ýokarlanýandygyna düşünmek üçin ilki bilen bir sözleme we abzasa düşünmek üçin nämä gerekdigini göz öňünde tutmalydyrys. Bir sözlem bilen iş salyşanyňyzda düşünmek üçin diňe bir umumy düşünje bar. Birek-birege degişli sözler az, şonuň üçin sözler bilen ýatda saklaýan pikirleriň arasynda baglanyşyk az bolýar.

Abzaslara sözlem düzmek bilen bu sözleriň arasyndaky baglanyşyk ep-esli köpelýär. 8X amallar, tekst şol bir modeli ulanyp, tizligi we ýady optimizasiýa ukybyny köp gezek talap eder. Bu ýerde SMITH esasan batlamak we köp oflayn işlemek arkaly ähli tapawudy döredýär. Gyzykly tarapy, SMITH henizem BERT-iň kadaly işlemegine bagly.

Ynha, SMITH-iň resminamany nädip alýandygynyň beýany:
  1. Ilki bilen resminamany dolandyrmak has aňsat toparlara bölýär.
  2. Soňra sözlemleriň her toparyny aýratynlykda işleýär.
  3. Transformator soňra her blokyň kontekstdäki görnüşini öwrenýär, şondan soň olary resminama wekilçiligine öwürýär.

SMITH nähili işleýär?

SMITH modelini öwretmek üçin BERT-den iki ýol bilen öwrenýäris:

BERT-i türgenleşdirmek üçin sözlemden bir söz çykarylýar we alternatiw wariantlar berler

Has gowy taýýarlanan BERT, berlen alternatiwalardan dogry warianty saýlamakda has üstünlikli boljakdyr. Mysal üçin, BERT sözlemi berilse:

Bagtly goňur ------ piket diwarynyň üstünden bökdi.
  • Birinji wariant - pomidor.
  • Ikinji wariant - it.
BERT näçe gowy taýýarlanylsa, ikinji warianty dogry saýlamak mümkinçiligi şonça-da gowy bolar.

Bu okuw usuly SMITH-de hem ulanylýar.

SMITH Uly resminamalar üçin taýýarlanýar

SMITH näçe gowy taýýarlanan bolsa, aýrylan sözlemleri tanamak mümkinçiligi şonça gowy. BERT bilen şol bir pikir, ýöne başga bir programma. Bu bölüm aýratyn gyzykly, sebäbi Google-yň döreden mazmuny bilen diwarly gözleg motorynyň netijeleriniň sahypalaryna birleşdirilen dünýäni reňkleýär. Elbetde, ulanyjylar gidip bilerler, emma gitmezler, sebäbi Google netije sahypasyndaky iň oňat çeşmelerden gysga we uzyn görnüşli mazmuny bölüp biler.

Bu waka şübhelenýän bolsaňyz, munuň eýýäm bolup başlandygyny bilmelisiňiz we entek özleşdirmedik hem bolsalar, bu başlangyç.

SMITH BERT-den gowumy?

Okaýanlaryňyzyň hemmesi bilen SMITH-iň has gowudygyny we köp meselelerde hakykatdanam gowudygyny çaklamak tebigy zat. Emma internedi bir salym ulanýandygyňyza göz aýlaň; gözleg soraglaryna haýsy soraglary yzygiderli girizýärsiňiz?
  • "Şu gün howa maglumaty nähili?"
  • "Restorana görkezmeler".
Şeýle gözleg soraglaryna jogap bermek, adatça çäkli we çylşyrymly maglumatlar bilen gysga mazmuny talap edýär. SMITH has uzyn we çylşyrymly resminamalara we uzyn we çylşyrymly gözleg soraglaryna düşünmäge has köp gatnaşýar.

Bu, jogaplaryny döretmek üçin birnäçe resminamalary we mowzuklary birleşdirmegi öz içine alar. Mazmunyň nädip döwülip biljekdigini kesgitleýär we Google-a görkezilýän dogry zady bilmäge mümkinçilik berýär. Mazmun sahypalarynyň biri-biri bilen nähili baglanyşýandygyna Google-a kömek eder we baglanyşyklaryň beýleki peýdalaryň arasynda bahalandyrylyp bilinjek masştabyny üpjün eder.

Bu aýdylanda, BERT bilen SMITH ikisiniňem möhümdigini aýdýarys we ikisi hem özboluşly maksadyna hyzmat edýär.

Netije

SMITH bazooka bolsa-da, zatlaryň kollektiwdigini anyk suratlandyrmak zerur. Çeşmelerde has uly iş edýändigi üçin has köp çykdajy edilýär, ýöne şol bir işi ýerine ýetireniňde BERT-den has az çykdajy edilýär.

BERT SMITH-e gysga soraglara we ownuk mazmun böleklerine düşünmäge kömek edýär. Şeýle-de bolsa, Google ikisiniň ornuny tutjak başga bir NLP algoritmini döredýänçä, soň bolsa SEO-da ýene bir öňe gidişlige ýeteris.

SEO bilen gyzyklanýarsyňyzmy? Beýleki makalalarymyzy gözden geçiriň Semalt blogy.