EN ET

Teemaanalüsaator

Märkus

Sellel teemaanalüsaatoril on API ka, kuid sellega kaob analüsaatori võlu.

Loomine

GUI

Liigu Tools -> Topic Analyzer . Klõpsa CREATE nuppu ülal vasakul. Vali oma Analüsaatorile (Description) nimi. Määra päring ning vali indeksid, millele seda päringut rakendatakse. Kui Query on tühi, kasutatakse kõiki dokumente valitud indeksis. Kui antud projektis on eelnevalt salvestatud päringud, ilmuvad need rippmenüüna Query väljale klõpsates - nii saad kasutada olemasolevaid otsinguid päringutena.

Vali väljad, mille peal hakatakse klasterdama. Valitud väljad peaksid sisaldama tekstiandmeid.

Märkus

Soovitame kasutada lemmatiseeritud või tokeniseeritud andmestikku. Lemmatiseerimine on eriti kasulik morfoloogiliselt keerukate keelye puhul. Tekstiandmeid saab tokeniseerida ja lemmatiseerida MLP abil,

Embedding - selle fraasijat kasutatakse tokeniseerimiseks. Selle võib jätta ka tühjaks.

Keywords filter - defineerib (regulaaravaldisena) filtreid tähenduslikele sõnadele, mida ei soovi kasutada.

Stopwords - klasterdamise ajal ignoreeritavad stoppsõnad.

Clustering algorithm - kasutatav klasterdamisalgoritm. Minibatchmeans on kmeans algoritmi ajatõhusam variant, seda potentsiaalselt kvaliteedi arvelt. Vectorizer - on meetod dokumendivektorite loomiseks.

Document limit - klasterdusse minevate dokumentide hulk. Suurim võimalik on 10000 dokumenti.

Num cluster - loodavate klastride koguarv

Num dims - maksimaalne võimalik dokumendivektorite dimensioon.

Num topics - dimensioonide arv, kui Use LSI on valitud.

Use LSI - kui valitud, siis kõrge dimensioonide arvuga dokument-termini vektorid vähendatakse väiksema dimensioonide arvuga vektoriteks, mis põhinevad „teemadel“.

Märkus

Kuidas valida klastrite arvu?

Üldine soovitus on pigem valida liiga palju klastreid kui liiga vähe. Mõtle, kui palju dokumente plaanid klasterdada ja vali number nii, et keskmine klaster on piisavalt väike hõlpsasti käsitsi kontrollimiseks. Näiteks, kui klasterdad 1000 dokumenti 50 klastrisse, siis keskmises klastris peaks olema 20 dokumenti.

_images/create_clustering.png

Joonis 62 Klasterduse loomine

Klastrite vaatamine

GUI

Klõpsa View clusters valikule Action’ite all. Sealt saad ülevaate tekkinud klastritest. Iga klastri kohta on antud dokumentide arv, keskmine dokumentidevaheline koosinussarnasus ning klastrile iseloomulike sõnade nimekiri.

_images/clusters_view.png

Joonis 63 Klastrite vaade

Märkus

Dokumentide arvu tõlgendamine

Teistest märkimisväärselt suurema dokumentide arvuga klaster viitab sellele, et klasterdamisalgoritm ei suutnud eristada dokumente teemade kaupa. See ei tähenda ilmtingimata, et klasterdamine polnud edukas, kuna tihti on võimatu klasterdada kõik dokumendid edukalt. Taolisi klastreid tasub siiski hoolikalt uurida - sellel võib olla teisi põhjuseid ka. Näiteks võivad selle klastri dokumendid sisaldada sarnast müra või stoppsõnu, mis teeb neid tehislikult üksteisele sarnasemaks. mõnikord võib aidata ka klastriarvu tõstmine.

Keskmise sarnasuse tõlgendamine

Keskmine sarnasus on keskmine koosinussarnasus klastris kõikide dokumentide vahel. See on vahemikus 0 kuni 1 ning kõrgem skoor viitab suuremale sarnasusele. Sellel skooril on ka puuduseid. Näiteks, kui klastris on 9 dokumenti, mis on üksteisele väga sarnased ning 10 dokument on teistsugune, siis võib skoor tunduda madal, kuigi taolise klastri parandamine on väga kerge.

Dokumentide vaatamine klastri sees

GUI

Vajuta klastrile, mis pakub huvi. See avab klastrisisu detailvaate.

Operatsioonid klastriga

GUI

Märgenda dokumente

Kui klaster sisaldab samateemalisi dokumente, on soovitatav need dokumendid ära märgendada ning klaster kustutada. Klõpsa Tag nupule. Selle abil saab lisada texta facti igale dokumendile selles klastris vabalt valitud nime ja väärtusega. Edaspidi ignoreeritakse neid dokumente klasterdades.

Kustuta dokumente

See funktsionaalsus on kasulik, kui mõned dokumendid antud klastris on teisest teemast ning on vaja need eemaldada - vali dokumendid, mida soovid eemadlada ning klõpsa prügikasti ikoonile.

Lisa veel dokumente

Sa võid tunda huvi, kas andmestikus on veel dokumente, mis on sarnased juba klastris olevatele. Sel juhul saad need dokumendid ka samasse klastrisse lisada, et oleks võimalik neid koos märgendada. Vajuta „More like this“ nupule, et pärida sarnaseid dokumente. Avanenud vaates vali dokumente, mida soovid klastrisse lisada ning vajuta + nupule.

Kustuta klaster

Soovitame kustutada klastri, kui oled selle ära märgendanud. Selleks vajuta Delete nuppu.

_images/cluster_details_view.png

Joonis 64 Cluster details view