EN ET

Terminoloogia

Siin kirjeldatakse TEXTA Toolkitiga (TTK) seotud põhilisi termineid.

Anonymizer

Anonymizer ehk Anonüümija on tööriist vabatekstis esinevate isikunimede nimekirja aluselanonüümimiseks. Iga tekstist tuvastatud nimekirjas leiduv snimi asendatatkse juhuslikult genereeritud initsiaalidega. Loe rohkem selle kohta siit.

Bert Tagger

Bert Tagger kasutab Google’i Kahesuunalist Enkodeerija Esitusi Transformeris sõnavektorite tarbeks.

Dataset Importer

Dataset Importer ehk Andmestike Importija on tööriist failide mugavaks laadimiseksElasticsearchi, et teha need Toolkitile kättesaadavaks. Loe selle kasutuse kohta rohkem siit.

Document Importer

Document Importer ehk Dokumendi Importija on kolm API otspunkti dokumentide üks-haaval lisamiseks, kustutamiseks ja asendamiseks kindlas indeksis. Loe nende kasutuse kohta rohkem siit.

Elasticsearch

Elasticsearch on hajus vabavaraline otsingu ja analüüsi mootor ning andmebaas igasugusteandmete hoiustamiseks. Loe selle kohta rohkem siit.

Embedding

Embedding ehk sõnavektor on statistiline mudel, mis kirjeldab sõnade ja fraaside distributiivseid omadusi, võimaldades arvutada sõnade ja fraaside vahelisi semantilisi sarnasusi.TTK-s kasutatakse sõnavektoreid kontekstuaalselt sarnaste võtmesõnade otsimiseks Lexicon Mineris, et laiendada otsingutulemusi Searcheris.Vektoreid saab kasutada ka närvivõrkudel põhinevates klassifikaatorites (Taggers, Tagger Groups, :ref:` Torch Tagger <torch_tagger_concept>`, Taggers). Varsti ilmuvad TTK-sse ka keelteülesed sõnavektorid, mida arendatakse EMBEDDIA projektis mitmekeelse teksti klassifitseerimise tarbeks.

ES Analyzer

ES Analyzer is a tool for applying various Elasticsearch analyzers to indices. Currently supported analyzers are:

  • Stemmer

  • Tokenizer

Evaluator

Evaluator is a tool for evaluating labels predicted with classification or entity extraction models.

Fakt

TTK-s käsitletakse tekstimärgendeid faktidena:

{
    "doc_path": "content.text",
    "fact": "PER",
    "spans": "[[12, 24]]"
    "str_val": "Donald Trump"
}

Faktid on objektid järgnevate tunnustega:

  • fakt - märgendi nimi (nt PER, LOC, või suvaline sõne)

  • str_val - string value for the annotation (e.g. „Donald Trump“ for PER). Values don’t need to match annotated text segments.

  • doc_path - tee väljani, mis sisaldab endas märgentatud sõnet. (Nt. „text“, „text.author“, „comment.text.author“, etc.)

  • spans - JSON sõne, mis sisaldab märgendatud sõne algus- ja lõpupositsooni.

Toolkitis on eeldefineeritud faktid, mida kasutab Mitmekeelne Eeltöötleja:

Silt

Tähendus

Kommentaar

PER

Persona

Inimese nimi

ORG

Organisatsioon

Organisatsiooni nimi, saadud statistiliselt.

LOC

Asukoht

Asukoha nimi, saadud statistiliselt

COMPANY

Ettevõte

Eestis registreeritud ettevõtete nimed, saadud Estonian Open Data’st.

ADDR

Aadress

Eesti aadress, saadud`Estonian Open Data’st <https://opendata.riik.ee/datasets/aadressiandmed/>`_.

DRUG

Ravim

Ravimi nimi

SUBSTANCE

Koostisosa

Ravimi koostisosa

EML

E-mail

E-maili aadress

PHO

Telefon

Telefoninumber

TEXTA_TAG

Oma märgend

Märgend, mis on treenitud Taggeriga

Tabel 1. Eeldefineeritud Faktide Nimed, mida kasutab Mitmekeelne Eeltöötleja

Oluline on märgata, et COMPANY ja ADDR märgendavad vaid neid ettevõtteidja aadresse, mis on registreeritud Estonian Open Datas. See ei märgenda ühtegi välismaa firmat või aadressi. ORG ja LOC märgendavad kõiki.

Väli

Iga dokument on väljade kogum. Väli on eraldatud informatsioonikild antud dokumendi kohta. Näiteks võivad artiklil olla väljad, mis sisaldavad artikli sisu tekstina, avaldamiskuupäeva, pealkirja jne.

Health

Serveri tervis annab ülevaate erinevate serverite staatustest ja jõudlusest, sealhulgas ka riistvara parameetreid ja TTK puhul TTK versiooninumbreid ja kasutatavate teenuste seisundeid. Loe rohkem siit, kuidas kontrollida TTK tervist.

Indeks

Elasticsearchi indeks on dokumentide kogum Elasticsearchis. Searcher-i väljund koosneb sobivatest väljafiltreeritud dokumentidest antud indeksi(te)st ning üks rida on üks dokument.

Language Detector

Language Detector is a tool for detecting languages of the chosen indices documents. It uses :ref:`langdetect python module <https://pypi.org/project/langdetect/>`_. This is useful for getting a quick overview of the languages presented in your dataset and parse out documents in a certain language for future work. Read more about its usage here.

Lexicon miner

Lexicon Mineri abil saab luua temaatiliste sõnade leksikone. See kasutab:ref:‘sõnavektoreid <embedding_concept>‘ sarnases kontekstis kasutatud sõnade leidmiseks. Loe rohkem selle kasutuse kohta siit.

Mitmekeelne Eeltöötleja (MLP)

MLP pakub erinevaid analüüsivõimalusi, mis pakuvad lisatunnuseid (informatsiooni) masinõpet kasutatavatele rakendustele TTKs ning aitab tuvastada tekstiandmestikust kasutajale huvipakkuvat infot. Loe rohkem selle kasutuse kohta siit.

Projekt

Projekt on andmete ja ressursside (nt sõnavektorite, klassifikaatorite jne) haldamise põhiühik.Projekti defineerivad selle nimi, projektiga seotud Elasticsearchi indeksid (ehk projektiandmed!) ja nimekiri kasutajatestkes saavad sellele projektile ligi.Kõik ressursid TTKs kuuluvad mingisse projekti ning kasutajate projekti lisamise või sealt kustutamise kaudu saab hallata ligipääse ressurssidele.

Additionally, creators of a project can assign other people with the Project Administrator permission to share the responsibility of who should have access to the resources and who shouldn’t

Projekt on aktiivne, kui see on valitud ülal paremal nurgas. Loe rohkem projektide kohta siit.

Project Administrator

Project Administrators are users who have been added into the Project to manage it, which can be done either by superusers or the author of the Project itself (by default, the Projects author is also its Project Admin). Within the permission of a Project Administrator lies: Adding and removing access to users into said Project, removing indices from the Project, editing the title of the Project.

Project Administrators who aren’t superusers though, lack the option to add existing indices into the Project and to search for usernames by a list (users need to be added by username manually).

Päring

Elasticsearchi päring on väike JSON-formaadis käsk, mis otsib Elasticsearchist välja teatud atribuutidega objekte. Neist võib mõelda, kui päringu saanud andmestiku alamhulgast. Päringuid võib kasutada erinevates Toolkiti tööriistades ja neid saab selle või hiljem uuesti otsimise jaoks salvestada Searcheris.

Regex Tagger

Regex Tagger on tööriist tekstide mustripõhiseks märgendamiseks regulaaravaldiste abil.Kasutaja saab defineerida mustreid (sõnu/fraase/regexeid), mida otsida tekstist, ning kindla informatsiooni eraldamiseks ja saadud informatsiooni põhjal tekste märgendamiseks peenhäälestada mustrite ja otsingute parameetreid. Loe rohkem selle kasutuse kohta siit.

Regex Tagger Group

Regex Tagger Group laseb kombineerida erinevait Regex Taggereid. Loe rohkem selle kasutuse kohta siit.

Reindexer

Reindexer on tääriist Elasticsearchi indeksitest koopiatevõi alamhulkade loomiseks. Reindexeri saab kasutada erinevateks andmehaldamise ülesanneteks:

  • Andmestikust koopia loomiseks;

  • Mitme andmestiku liitmiseks;

  • Alusandmestikust juhulsikult valitud dokumentidega alamhulga loomiseks;

  • Eeldefineeritud kitsenduste ehk päringute alusel andmestiku alamhulga loomiseks;

  • Väljade ümbernimetamiseks;

  • Väljade Elasticsearchi andmetüübi muutmiseks.

Loe rohkem nende kohta siit.

Search Query Tagger

Search Query Tagger is a tool for tagging documents based on predefined queries.

Märkus

Search Query Tagger is applicable only for tagging documents indexed in Elasticsearch and can be only used on indices that contain the same fields as the defined search.

Search Fields Tagger

Search Fields Tagger is a tool for converting tags/keywords in a separate field into Texta Facts as most applications in Texta Toolkit assume that the labels are stored as Texta Facts.

Tagger

Taggerid on ükskeelsed binaarsed teksti klassifitseerijad, mis ennustavad dokumentidele märgendeid (nt kas antud säuts on toksiline või räägib Brexitist). Taggereid treenitakse TTK Searcheris salvestatud andmete alamhulkade (otsingute) või toorete Elasticsearchi päringute põhjal. See otsing või päring defineerib ‚positiivsed‘ näited (dokumendid selle teema kohta, mida hakatakse märgendama). ‚Negatiivsed‘ näited valitakse automaatselt (võimalikult erinevad positiivsetest). TTK Taggereid treenitakse scikit-learn konveieriga (pipeline) ja kasutab mudeleid nagu SVM ja logistiline regressioon. TTK jagab treeningandmestiku automaatselt treening- ja valideerimisandmestikuks (vaikimisi 80%-20%) ja kasutab võreotsingu meetodit kombineeritud k-korda ristvalideerimise meetodiga parima hüperparameetrite tuvastamiseks. SVM mudelit kasutatakse tunnuste valikus - mudeli väiksemaks tegemiseks eemaldatakse ebaolulised tunnused. Tunnuseid kasutatakse nii sõna- kui ka karakteripõhiselt. Loe rohkem Tagger-ite kohta siit.

Tagger Group

Tagger Group on TTK binaarsete Taggerite laiendus, mis toetab ühekeelset mitme märgendiga samaaegset märgendamist. Nagu nimigi viitab, saab Tagger Groupi abil treenida mitut binaarset märgendit korraga. Tagger Groupi on edukalt testitud üle 6000 binaarse mudeliga - ennustusajad jäävad üldjuhul ikka alla ühe sekundi. Taolise kiiruse saavutamiseks kasutab TTK mitme märgendi märgendamise meetodit, mis kasutab juhendamata masinõpet (dokumendi vektoreid) ennustamisele minevate binaarsete mudelite piiramiseks. Selle jaoks võrreldakse sisenddokumenti treeningandmestikuga ning ennustatakse vaid nende märgendite mudelitega, mis leiduvad sarnaseimate dokumentide juures. Loe rohkem selle kasutuse kohta siit.

Task

TEXTA Toolkiti abil saab luua mitmeid erinevaid statistilis mudeleid teksti töötlemiseks. Treeningprotsessi alustatakse TTK API või GUI kaudu, mis tekitab TTK andmemudelisse objekti ja alustab asünkroonset treeningülesannet (training task). Ülesanded on andmeobjektid, mille abil saab hoida silma peal treenitavate statistiliste mudelite treenimise arengul.

Teemaanalüsaator

Teemaanalüsaator on tööriist, mis tuvastab sarnaste dokumentide gruppe andmestikust. Seda saab kasutada näiteks märgendamata andmestiku struktuuri uurimiseks, et saada aimu, mida see endas sisaldab. Tööriista peamine eesmärk on siiski astuda samm edasi ja kasutada saadud avastusi ära ning muuta kasutaja avastused märgenditeks. Seda saab seejärel kasutada juhendatud masinõppe mudelite treenimiseks.

Teemaanalüsaator kasutab ära juhendamata klasterdamise ja käsitsi märgendamise parimaid palu. Klasterdamine on kiire ja tõhus meetod sarnaste tekstide gruppide moodustamiseks. Samas pole see piisavalt täpne andmestiku märgendamise jaoks. Näiteks võivad mõned klastrid tõepoolest sisaldada ainult sarnaseid dokumente. Samas mõni teine võib totaalselt ebaõnnestuda sarnasuse tabamisel ja mõni võib ainult enam-vähem hakkama saada.

Teemaanalüsaator laseb kasutajal vaadata klastrite sisse ja otsustada käsistsi nende kvaliteedi üle. Lisaks saavad kasutajad: eemaldada dokumente, lisada juurde sarnaseid dokumente ja liigutada dokumente ühest klastrist teise. Kui klaster on valmis, saab kasutaja valida märgendi, millega antud klastrile sarnaseid dokumente märgendama hakata.

Loe rohkem selle kasutuse kohta siit.

Torch Tagger

Tagger ja Tagger Group kasutavad klassikalisi masinõppe meetodeid binaarsete klassifitseerimismudelite loomiseks. TTK-s on ka Torch Tagger, mis on saanud oma nime PyTorchi järgi, milles Torch Tagger programmeeritud on. Torch Tagger kasutab tehisnärvivõrke binaarseks või mitmeklassiliseks klassifitseerimiseks.

Sellega saab kasutada mitmeid tipptasemel tekstiklassifitseerimismudeleid nagu fastText, TextRNN kahesuunaliste LSTM närvivõrkudega ja RCNN rekurrentsete konvolutsiooniliste närvivõrkudega. Kuna kõik mudelid on arendatud PyTorchis, on nende kasutamine üsna selge. Torch Taggeri mudelid pakuvad ka võimalust kasutada eeltreenitud sõnavektoreid (nt TTK-s treenitud Word2Vec-i). Andmete eeltöötlemise konveierite loomiseks kasutab Torch Tagger torchtext pakki. Torch Tagger on valideeritud ühekeelsel toksiliste kommentaaride tuvastamisel, saavutades õigsuse ja F1-skooriks 96%. Loe rohkemselle kasutuse kohta siit.

UUA server

User Account and Authentication ehk Kasutaja Konto ja Autentimine on identiteedi haldamise teenus, mis kindlustab, et vaid valitud kasutajad saavad ligipääsu teatud andmetele. Loe selle kohta rohkem siit.