EN ET

Sõnavektor (embedding)

Loomine

GUI

Mine Models -> Embeddings ja vajuta CREATE-nupule ülal vasakul. Vali oma sõnavektorile nimi (Description). Määra päring ja vali indeksid, mille peale see päring rakendatakse. Tühi Query võtab valitud indeksitest kõik dokumendid. Kui projektis on salvestatud otsinguid, saab neid valida ripp-menüüst, mis ilmub Query väljale klõpsates - niiviisi on võimalik kasutada olemasolevaid otsinguid päringutena.

Vali fields, millel sõnavektoreid hakatakse treenima. Valitud väljad võiksid sisaldada tekstiandmeid.

Märkus

Soovituslik on kasutada lemmatiseeritud või tokeniseeritud andmeid. Lemmatiseerimine on eriti kasulik morfoloogiarikaste keelte puhul. Andmeid saab tokeniseerida ja lemmatiseerida MLP-ga.

Väli Number of dimensions on sõnavektorite pikkus. 100-200 dimensiooni on tavaliselt alustamiseks hea koht. Väli Minimum frequency määrab, mitu korda peab sõna andmestikus minimaalselt kasutatud olema, et saada endale oma sõnavektor.Kui Sa ei tea, mida valida, sobib vaikimisi väärtus 5 väga hästi.

Märkus

Sõnavektorite kvaliteet sõltub andmestiku suurusest. Mida suurem, seda parem.

API

Otspunkt: /projects/{project_pk}/embeddings/

Näide:

curl -X POST "http://localhost:8000/api/v1/projects/11/embeddings/" \
-H "accept: application/json" \
-H "Content-Type: application/json" \
-H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049" \
-d '{
        "description": "My embedding",
        "indices": [{"name": "texta_test_index"}],
        "fields": ["comment_content_lemmas"],
        "num_dimensions": 100,
        "max_documents": 10000,
        "min_freq": 5
    }'

Vaade

GUI

Mine Models -> Embeddings, et vaadata olemasolevaid sõnavektoreid. Kui mõni sõnavektor veel treenib, saab vaatest vaadata treeningu progressi (Joonis 59). Sellele lisaks kuvab vaade üldist informatsiooni projekti sõnavektorite kohta.

_images/embedding_view.png

Joonis 59 Sõnavektorite vaade

API

Otspunkt: /projects/{project_pk}/embeddings/

Näide:

curl -X GET "http://localhost:8000/api/v1/projects/9/embeddings/" \
     -H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049"

Kustuta

GUI

Mine Models -> Embeddings ja vajuta kolmele täpikesele Actions (tegevusvõimalused) tulbas. Vali Delete (Joonis 60).

_images/embedding_actions.png

Joonis 60 Sõnavektorite tegevusvõimalused

API

Otspunkt: /projects/{project_pk}/embeddings/{embedding_id}

Näide:

curl -X DELETE "http://localhost:8000/api/v1/projects/9/embeddings/9/" \
     -H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049"

Muutmine

GUI

Mine Models -> Embeddings ja vajuta kolmele täpikesele Actions (tegevusvõimalused) tulbas. Vali Edit (Joonis 60).

API

Otspunkt: /projects/{project_pk}/embeddings/{embedding_id}

curl -X PATCH "http://localhost:8000/api/v1/projects/9/embeddings/8/" \
     -H "accept: application/json" \
     -H "Content-Type: application/json" \
     -H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049" \
     -d '{"description":"changed"}'

Rakenda fraasituvastit (apply phraser)

GUI

Mine Models -> Embeddings ja vajuta kolmele täpikesele Actions (tegevusvõimalused) tulbas. Vali Phrase (Joonis 60). Sisesta tekst, kust tahad fraase tuvastada, ja vajuta Post. Seejärel ilmub fraasistatud tekst (Joonis 61).

_images/phraser_gui.png

Joonis 61 Rakenda fraasituvastit (Apply phraser)

API

Otspunkt: /projects/{project_pk}/embeddings/

Näide:

curl -X POST "http://localhost:8000/api/v1/projects/9/embeddings/8/phrase_text/" \
-H "accept: application/json" \
-H "Content-Type: application/json" \
-H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049" \
-d '{
        "text": "Venus is the second planet from the Sun."
    }'