Sõnavektor (embedding)¶
Loomine¶
GUI¶
Mine Models -> Embeddings ja vajuta CREATE-nupule ülal vasakul. Vali oma sõnavektorile nimi (Description). Määra päring ja vali indeksid, mille peale see päring rakendatakse. Tühi Query võtab valitud indeksitest kõik dokumendid. Kui projektis on salvestatud otsinguid, saab neid valida ripp-menüüst, mis ilmub Query väljale klõpsates - niiviisi on võimalik kasutada olemasolevaid otsinguid päringutena.
Vali fields, millel sõnavektoreid hakatakse treenima. Valitud väljad võiksid sisaldada tekstiandmeid.
Märkus
Soovituslik on kasutada lemmatiseeritud või tokeniseeritud andmeid. Lemmatiseerimine on eriti kasulik morfoloogiarikaste keelte puhul. Andmeid saab tokeniseerida ja lemmatiseerida MLP-ga.
Väli Number of dimensions on sõnavektorite pikkus. 100-200 dimensiooni on tavaliselt alustamiseks hea koht. Väli Minimum frequency määrab, mitu korda peab sõna andmestikus minimaalselt kasutatud olema, et saada endale oma sõnavektor.Kui Sa ei tea, mida valida, sobib vaikimisi väärtus 5 väga hästi.
Märkus
Sõnavektorite kvaliteet sõltub andmestiku suurusest. Mida suurem, seda parem.
API¶
Otspunkt: /projects/{project_pk}/embeddings/
Näide:
curl -X POST "http://localhost:8000/api/v1/projects/11/embeddings/" \
-H "accept: application/json" \
-H "Content-Type: application/json" \
-H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049" \
-d '{
"description": "My embedding",
"indices": [{"name": "texta_test_index"}],
"fields": ["comment_content_lemmas"],
"num_dimensions": 100,
"max_documents": 10000,
"min_freq": 5
}'
Vaade¶
GUI¶
Mine Models -> Embeddings, et vaadata olemasolevaid sõnavektoreid. Kui mõni sõnavektor veel treenib, saab vaatest vaadata treeningu progressi (Joonis 59). Sellele lisaks kuvab vaade üldist informatsiooni projekti sõnavektorite kohta.
API¶
Otspunkt: /projects/{project_pk}/embeddings/
Näide:
curl -X GET "http://localhost:8000/api/v1/projects/9/embeddings/" \
-H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049"
Kustuta¶
GUI¶
Mine Models -> Embeddings ja vajuta kolmele täpikesele Actions (tegevusvõimalused) tulbas. Vali Delete (Joonis 60).
API¶
Otspunkt: /projects/{project_pk}/embeddings/{embedding_id}
Näide:
curl -X DELETE "http://localhost:8000/api/v1/projects/9/embeddings/9/" \
-H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049"
Muutmine¶
GUI¶
Mine Models -> Embeddings ja vajuta kolmele täpikesele Actions (tegevusvõimalused) tulbas. Vali Edit (Joonis 60).
API¶
Otspunkt: /projects/{project_pk}/embeddings/{embedding_id}
curl -X PATCH "http://localhost:8000/api/v1/projects/9/embeddings/8/" \
-H "accept: application/json" \
-H "Content-Type: application/json" \
-H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049" \
-d '{"description":"changed"}'
Rakenda fraasituvastit (apply phraser)¶
GUI¶
Mine Models -> Embeddings ja vajuta kolmele täpikesele Actions (tegevusvõimalused) tulbas. Vali Phrase (Joonis 60). Sisesta tekst, kust tahad fraase tuvastada, ja vajuta Post. Seejärel ilmub fraasistatud tekst (Joonis 61).
API¶
Otspunkt: /projects/{project_pk}/embeddings/
Näide:
curl -X POST "http://localhost:8000/api/v1/projects/9/embeddings/8/phrase_text/" \
-H "accept: application/json" \
-H "Content-Type: application/json" \
-H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049" \
-d '{
"text": "Venus is the second planet from the Sun."
}'