Rezolvarea analogiilor prin reprezentarea cuvintelor ca vectori


In cursul de matematica de acum cateva saptamani, am aflat despre modul in care cuvintele ar putea fi convertite in vectori de inalta dimensiune pentru a rezolva intrebari analogice. O intrebare analogica este o intrebare care va cere sa gasiti relatia dintre cuvinte. sexi escorte De exemplu, raspunsul la intrebarea: barbatul este pentru femeie, ceea ce este rege pentru ____ este „regina”, deoarece trebuie sa folositi relatia din prima parte a intrebarii pentru a completa spatiul gol. Acest lucru mi s-a parut cu adevarat interesant, deoarece relatiile dintre cuvinte par a fi destul de complexe de codat. jurnalul unei dame de companie film Eram curios sa vad daca vectorii cu dimensiuni ridicate pot capta cu adevarat sensul cuvantului si relatia acestuia cu un alt cuvant.

Schema descrisa in clasa era de a converti mai intai fiecare cuvant intr-un vector de inalta dimensiune. publi 24 braila escorte Apoi, scade pur si simplu primul vector din al doilea din perechea de prim cuvant si adauga-l la primul cuvant din a doua pereche de cuvinte. Cuvantul al carui vector era cel mai apropiat de raspunsul rezultat ar fi solutia. dame de companie cluj pret Pentru exemplul de mai sus, solutia ar fi vectorul cel mai apropiat de rege + femeie – barbat care, speram, ar fi regina.

Primul pas in rezolvarea acestei probleme a fost gasirea unui set de date bun care sa antreneze modelul Word2Vec (un model care converteste cuvintele in vectori de inalta dimensiune). bunici curve Am decis sa folosesc o compilatie cu toate recenziile hotelului din setul de date OpinRank. Am gasit o lista concatenata cu toate recenziile hotelului intr-un singur fisier: https://github. curve adjud com/kavgan/nlp-text-mining-working-examples/tree/master/word2vec fisierul este (reviews_data.txt. cinderella escorte gz). Au existat un total de 255. matrimoniale alba 403 recenzii in setul de date.

Am folosit Gensim, un set de instrumente Python care ajuta la modelarea spatiului vectorial si a subiectelor pentru a crea un model care sa rezolve analogii. anunturi matrimoniale bistrita Am instruit modelul Word2Vec folosind implementarea Word2Vec de catre Gensim. Modelul a fost instruit prin trecerea intr-o lista de recenzii. escorte tg neamt In timp ce nu cunosc tehnicitatile implementarii Word2Vec, axioma „semnificatia unui cuvant poate fi gasita de la compania pe care o pastreaza” poate fi utilizata pentru a intelege la nivel inalt modul in care este implementat Word2Vec. Pentru fiecare cuvant, examinam cuvintele invecinate si il folosim pentru a deduce semnificatia acestuia. escorte private Fiecare vector, corespunzator fiecarui cuvant, ajunge sa fie 150 dimensional in Gensim. Am folosit urmatorul link pentru a ma asigura ca am sintaxa corecta: http://kavita-ganesan. escorte noi com/gensim-word2vec-tutorial-starter-code/#.W7HQUhNKjBK

Odata ce modelul a fost instruit, am implementat exact schema propusa in curs. escorte sexy net Am ales manual trei cuvinte, primele doua fiind perechea de cuvinte si le-am convertit in vectori. Am aplicat apoi formula al patrulea cuvant = al treilea cuvant + (al doilea cuvant – primul cuvant) si am gasit cuvantul cel mai apropiat de vectorul rezultat. escorte de lux galati



  • matrimoniale londra
  • fete curve tulcea
  • matrimoniale stapana
  • matrimoniale live
  • dame de companie japoneze
  • curve cluj
  • dame de companie publi24
  • publitim matrimoniale arad
  • raid matrimoniale galati femei
  • informatorul moldovei matrimoniale femei
  • dame companie curtea de arges
  • matrimoniale reghin
  • escorte perverse
  • dame de companie suceava
  • escorte plinute
  • escorte torino
  • matrimoniale 24 bucuresti
  • escorte din constanta
  • matrimoniale bt
  • escorte bucuresti mature





M-am referit la documentatia Gensim pentru intrebari legate de sintaxa. (https://radimrehurek. matrimoniale sector 2 com/gensim/models/keyedvectors.html#gensim. matrimoniale casatorie bucuresti models.keyedvectors. matrimoniale elmaz ro WordEmbeddingsKeyedVectors.wmdistance)

Rezultate:

Am descoperit ca rezolvatorul analogiei a reusit sa rezolve confortabil analogii simple, dar s-a luptat cu altele mai complexe. curve din romania porno Iata o lista de analogii incercate, iar cuvintele de top cele mai probabil sa fie solutia. Numarul corespunzator fiecarui cuvant este similaritatea dintre vectorul acelui cuvant si vectorul solutiei calculat de formula din ipoteza. dame de companie public24

Nota: a trebuit sa filtrez manual unele dintre rezultatele care au dat un raspuns care a repetat un cuvant in intrebare.

  1. Omul este pentru Femeie ceea ce este Regele sa ___?

Am primit corect regina ca raspuns corect! O mare diferenta intre prima si a doua similitudine inseamna ca solutia a fost foarte evidenta. escorte lux ploiesti

2. Baiatul este pentru Fata ce este Omul pentru ___?

Raspuns corect!

2. Apa este gheata ce lichid este ___?

nu un rezultat bun

3. Rau este la bine ceea ce este trist sa ___?

toate aceste cuvinte au sens aici, dar „fericit” ar fi cel mai corect

4. Doctorul este la spital ceea ce este profesorul sa ___?

destul de precis

5. SUA este pentru pizza ceea ce este Japonia pentru ___?

Rezultate bune aici!

6. Omul este sa gazduiasca ce pasare este sa ___?

rezultate complet incorecte

7. Iarba este sa verzi ceea ce este cerul sa ___?

idk ce s-a intamplat aici

Se pare ca schema de conversie a cuvintelor in vectori de inalta dimensiune este corecta si ofera rezultate rezonabile. Exista loc de imbunatatire si poate ca acest lucru poate fi realizat cu un set de date mai mare. Voi incerca sa experimentez diferite seturi de date si voi incerca, de asemenea, sa folosesc diferite implementari ale Word2Vec.

Sunt curios sa vad cum ar functiona acest model impotriva vechilor intrebari SAT cu alegere multipla (testul analizat anterior). Deoarece intrebarile sunt cu alegere multipla, modelul ar trebui sa aleaga doar care dintre cei 4 vectori ai cuvantului este cel mai apropiat de vectorul prezis. Voi incerca sa vad acuratetea acestui model in comparatie cu oamenii care fac testul!

In general, sunt foarte impresionat de cat de exact a fost modelul si ca, in cea mai mare parte, rezultatele au avut sens. Aceasta inseamna ca conversia unui cuvant intr-un vector 150-dimensional permite incapsularea semnificatiei cuvantului. De asemenea, inseamna ca relatiile dintre doua cuvinte pot fi, de asemenea, reprezentate ca un vector 150-dimensional, iar aceste doua fapte in combinatie au condus la acuratetea modelului.