Domenīmi

Drukāt

Domenīmi

“Pasaulē jau sen ir pazīstami sinonīmi, antonīmi, homonīmi, tagad tiem pievienojas arī DOMENĪMI (DOMĒna sinoNĪMI),“ tā ar jaunvārdu iepazīstina Katrīna Sataki .LV reģistra (NIC) vadītāja.

NIC sadarbībā ar LU MII Mākslīgā intelekta laboratoriju ir izveidojis jaunu pakalpojumu - domēna vārdu ģenerēšanas rīku DOMENĪMI, kurš ikkatram domēna vārdu izvēles krustcelēs nonākušajam, piemeklē radošas BRĪVU domēna vārdu alternatīvas.

DOMENĪMI ir pirmais domēna vārdu ģenerēšanas rīks, kas ievēro LATVIEŠU VALODAI raksturīgos locījumus, diakritiskās zīmes un ir izstrādāts, balstoties uz ikdienā lietoto valodu portālos, blogos, digitalizētās daiļliteratūras grāmatās, vārdnīcās un vārdu krājumos.

Jaunais domēna vārda izvēles palīgs DOMENĪMI ir unikāls ne tikai ar to, ka ņem talkā mākslīgo intelektu lai piemeklētu jūsu vārdam alternatīvas, bet arī reālā laikā veic to pieejamības pārbaudi .LV reģistra datu bāzē, tādēļ lietotājam tiek piedāvāti tikai BRĪVIE .LV domēna vārdi.

Pakalpojums DOMENĪMI pieejams, izmantojot vietni www.domenimi.lv, kur lietotājs var ne tikai ģenerēt sev vēlamā vārda “domenīmus”, bet arī izvēlēties sava domēna vārda reģistrācijai un prasībām piemērotāko .LV Reģistratūru, kura atbalsta šo projektu: AmberBit, Dualnode, Media Partners, Mozello, CloudHosting, SigmaNet un Stream Networks.

Trāpīgu, lipīgu un interesantu nosaukumu savam pakalpojumam, produktam vai mājas lapai izdomāt nav vienkārši. DOMENIMI.LV izmantoto avotu sarunvalodas stilistika paver plašākas tā pielietojuma iespējas - paskatīties uz savu produkta nosaukumu vai arī domēna vārdu no cita skatpunkta, ļaujot ikvienam, papildus savam radošajam un emocionālajam intelektam talkā ņemt arī mākslīgo intelektu.

Lai gan domēna vārdu ģenerēšanas rīks DOMENĪMI ir cenzēts, tomēr LU MII (tajā skaitā NIC) vērš uzmanību, ka nav atbildīgs par rīka piedāvātajiem “domenīmiem”, kuri kādam var šķist aizskaroši.

Tehniskais risinājums

Domēna vārdu alternatīvu veidošana sākas ar to, ka sistēma mēģina saprast, kādi vārdi veido ievadīto frāzi, jo domēna vārdi bieži ir vairāku vārdu kombinācija:

  • daļa no vārdiem mēdz būt angļu valodā,
  • latviešu vārdi mēdz būt pierakstīti bez garumzīmēm un/vai mīkstinājuma zīmēm,
  • kā arī ir daudz firmu vai zīmolu nosaukumi, kuri vārdnīcās neparādās.

Pēc tam katram frāzes vārdam tiek piemeklētas “tuvākās” alternatīvas un atkal sakombinēta frāze, cenšoties saglabāt ievadīto vārdu locījumus un formas.

Kodols visam ir metode vārdu līdzības mērīšanai, pēc kuras tiek “izdomāti” alternatīvi vārdi, kas varētu nozīmēt kaut ko līdzīgu sākotnējam. Par pamatu tika izmantots Tomaša Mikolova popularizētais word2vec risinājums, kas ir pasaulē plaši pielietots arī dažādās citās teksta analīzes jomās. Tiek veidots neironu tīkls, kas mēģina iemācīties atbildēt uz jautājumu “Vai šie x vārdi ir fragments no īsta teksta?”, attiecīgi sistēmai rādot daudz šādu teksta fragmentu paraugus un kontrastējot tos ar sabojātiem fragmentiem, kur kāds vārds ir aizvietots ar pilnīgu citu. Katru vārdu mēģina reprezentēt tīri kā kombināciju vai vektoru no 100-200 koeficientiem. Apmācības gaitā arī sistēma katram vārdam piemeklē tādas koeficientu vērtības, kas ļauj labāk atšķirt īstas frāzes no muļķībām. Pati sistēma pēc tam tiek “izmesta miskastē”, taču šī trika gaitā iegūtais starprezultāts (iegūtās vārdu reprezentācijas) ir ļoti interesantas, sistēmai nākas šajos dažos skaitļos saspiest visu to informāciju, kas vajadzīga vārdu saistības noteikšanai. Viens no to pielietojumiem ir tīri vārdu līdzības mērīšana, jo izrēķinot tīri starpību/attālumu starp divus vārdus aprakstošajiem vektoriem, jēdzieniski saistītāki vārdi atrodas tuvāk.

Lai mācītos latviešu valodas vārdu līdzību, tika lietota kombinācija no trim apjoma ziņā salīdzināmiem avotiem:

  • līdzsvarotā mūsdienu latviešu valodas tekstu korpusa (www.korpuss.lv), kas apkopo dažāda veida valodas piemērus;
  • internetā “sasēņotiem” tekstiem no apmēram 40 000 latviešu valodas blogu;
  • latviskās Vikipēdijas teksta (lv.wikipedia.org).