EN ET

Tagger Group

Tagger Group-iga saab treeniga mitme klassi klassifitseerimist korraga ning see kasutab andmestikus olevaid märgendeid.

Märkus

Kuidas erinevad Tagger ja Tagger Groups?

Üks mudel ennustab, kas tekst on positiivne (True) või negatiivne (False). St, kas tekst saab märgendi või mitte. Tagger treenib vaid ühe mudeli ning ennustab, kas tekst on sarnane sellele andmestikule / salvestatud otsingule, millel see treeniti. Tagger Group treenib mitu mudelit korraga. St, see võib ennustada mitu märgendit korraga. Tagger Group treenib end faktide põhjal. Meil võib olla mitu erinevat väärtust ühe kindla fakti all ning iga väärtuse kohta (kui sellel väärtusel on piisavalt kõrge sagedus (Minimum sample size)) treenitakse eraldi mudel.

Loomine

Parameetrid

description:

Tagger mudeli nimi.

indices:

Names of the indices the model learns from (defaults to every index in the Project).

fields:

Väljad, mis lähevad mudeli sisendiks. Kui valitakse rohkem kui üks väli, kleepitakse need väljad lihtsalt enne treenimisprotsessi kokku. Ka ühest väljast piisab. Tavaliselt eelistatakse lemmatiseeritud tekste, eritieriti morfoloogiliselt rikaste keelte puhul, kuna see tõstab mõnede sõnade sagedust (söödud, sõi and sääb saavad kõik oma lemmaks vormi sööma ja neid käsitletakse ühe sõnana).

query:

Searcheri otsing sellele andmestikule, mille peal hakatakse treenima.Tühi Query võtab sisendiks kogu andmestiku aktiivses projektis. Soovitud sisendiks võib valida ka salvestatud otsingu. Salvestatud otsing on märgendajale positiivsete näidete kogum - hiljem märgendab mudel sellele otsingukogumile sarnaseid andmeid.

embedding:

Eelnevalt sama andmestiku peal treenitud sõnavektorid.

vectorizer:

Hashing Vectorizer, Count Vectorizer, Tfldf Vectorizer - loe nende kohta rohkem siit.

classifier:

Logistic Regression, LinearSVC.

maximum sample size:

Maksimaalne näidiste hulk ühe klassi kohta limiteerib treeningandmestiku suurust.

negative multiplier:

Negatiivse korrutaja abil saab muuta negatiivsete näidete suhet positiivsetega treeningandmestikus.

GUI

Uut Tagger Group mudelit saab luua vajutades üleval vasakul olevat ‚+CREATE‘ nuppu. Seejärel vali parameetrid ning vajuta „Create“-nuppu (vajadusel keri natukene all).Nüüd on järele jäänud treeningprotsessi järgmine ja Taggeri tulemuste vaatamine.

Märkus

LinearSVC võib anda errorit, kui otsingus ei ole piisavalt andmeid.

_images/create_tagger_group.png

Joonis 70 Tagger Group-i loomine

Uue Tagger Group mudeli progressi saab jälgida tabelist, mis ilmub Task-i all. Kui me vajutame mudelile, näeme kogu treenimisinfot - kui kaua treenimine aega võttis ja kui edukas mudel on. Meeldetuletusena:
  1. Recall ehk saagis on õigesti positiivseks märgendatute ja kõigi positiivsete elementide suhe. Avg.recall ehk saagise keskmine on kõigi mudeli saagiste keskmine.

  2. Precision ehk täpsus on õigesti positiivseks märgendatud ja kõigi positiivseks märgendatud elementide suhe. Avg.precision ehk täpsuse keskmine on kõigi mudeli täpsuste keskmine.

  3. F1-skoor on nende kahe harmooniline keskmine ning peaks olema informatiivsem, eriti just tasakaalust väljas oleva andmestiku puhul. Avg.F1_score on kõigi mudeli F1-skooride keskmine.

_images/created_tagger_group.png

Joonis 71 Loodud Tagger Group

Tabeli vaates saame valida mitu mudelit korraga ja kustutada need, kasutades prügikasti nupukest CREATE nupukese kõrval üleval vasakul. Mitme Tagger Groups mudeli seast saab õiget otsida nende kirjelduse või task status-e kaudu. Kui mudeleid on palju, saad vahetada kuvamislehekülge üleval paremal.

API

Otspunkt (endpoint): /projects/{project_pk}/tagger_groups/

Näidis:

curl -X POST "http://localhost:8000/api/v1/projects/11/tagger_groups/" \
-H "accept: application/json" \
-H "Content-Type: application/json" \
-H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049" \
-d '{
        "description": "My tagger group",
        "fact_name": "TEEMA",
        "minimum_sample_size": 50,
        "tagger": {
            "fields": ["lemmas"],
            "vectorizer": "Hashing Vectorizer",
            "classifier": "Logistic Regression"
        }

    }'

Treenitud Tagger Groupi otspunkt (endpoint): /projects/{project_pk}/tagger_groups/

Kasutus

Models list

Models list kuvab mudeleid, mille Tagger Group treenis. Sealt saab vaadata, milliseid sildid/märgendid treeniti.

API otspunkt (endpoint): /projects/{project_pk}/tagger_groups/{id}/tag_text/

Tag text

Tag text aitab hõlpsasti kontrollida, kuidas mudel töötab. Sellele vajutades avaneb aken. Aknasse saab kleepida/kirjutada teksti, valida selle lemmatiseerimine (vajalik, kui mudel on treenitud lemmatiseeritud tekstil) ning seejärel see ‚postitada‘ (vajuta Post-nuppu). ‚Postitamine‘ väljastab tulemuse (kõik märgendid, mille kohta mudel ennustas sellele tekstile True) ja iga täägi kohta tõenäosuse (probability), et see märgend käib selle teksti kohta. Tõenäosus näitab, kui kindel on antud mudel oma ennustuses. Number of similar documents on antud dokumendiga sarnaste dokumentide arv. Nendele dokumentidele märgendatud märgendeid testitakse uue antud dokumendi peal.

API otspunkt (endpoint): /projects/{project_pk}/tagger_groups/{id}/tag_text/

Näidis:

curl -X POST "http://localhost:8000/api/v1/projects/11/tagger_groups/1/tag_text/" \
-H "accept: application/json" \
-H "Content-Type: application/json" \
-H "Authorization: Token 8229898dccf960714a9fa22662b214005aa2b049" \
-d '{
        "text": "AINUS ettepanek - alla põhihariduse isikutele sõidulubasid mitte anda - sai kriitika osaliseks.",
        "lemmatize": true,
        "use_ner": false,
        "n_similar_docs": 10,
        "n_candidate_tags": 10,
        "feedback_enabled": false
    }'

Vastus:

[
    {
        "tag": "foo",
        "probability": 0.6659222999240199,
        "tagger_id": 4,
        "result": true
    },
    {
        "tag": "bar",
        "probability": 0.5107991699285356,
        "tagger_id": 3,
        "result": true
    }
]

Tag doc

Tag doc on sarnane Tag text-ile, ainult et sisend on JSON-formaadis. Number of similar documents on antud dokumendiga sarnaste dokumentide arv. Nendele dokumentidele märgendatud märgendeid testitakse uue antud dokumendi peal.

API otspunkt (endpoint): /projects/{project_pk}/tagger_groups/{id}/tag_text/

Tag random doc

Tag random doc võtab suvalise dokumendi andmestikust, väljastab selle ja tagastab tulemused ja vastavatesse klassidesse kuulumise tõenäosuse.

API otspunkt (endpoint): /projects/{project_pk}/tagger_groups/{id}/tag_text/

Apply to index

Used to classify every document inside one or several indices with a Tagger Group, this process will scroll through all the documents, parse the texts of the given fields and return their results as Texta Facts.

Since this is a long-term tasks, the user will get a response immediately while another processes it.

API endpoint /projects/{project_pk}/tagger_groups/{id}/apply_to_index/

Edit

Edit on kirjelduse (description) muutmiseks.

Models retrain

Models tagger treenib kõik Tagger Group-i mudelid samade parameetritega uuesti.See on kasulik, kui andmestik muutub või juurde on tulnud uusi stopp-sõnu.

API otspunkt (endpoint): /projects/{project_pk}/tagger_groups/{id}/tag_text/

Delete

Delete kustutab mudeli.