Teemaanalüsaator¶
Märkus
Sellel teemaanalüsaatoril on API ka, kuid sellega kaob analüsaatori võlu.
Loomine¶
GUI¶
Liigu Tools -> Topic Analyzer . Klõpsa CREATE nuppu ülal vasakul. Vali oma Analüsaatorile (Description) nimi. Määra päring ning vali indeksid, millele seda päringut rakendatakse. Kui Query on tühi, kasutatakse kõiki dokumente valitud indeksis. Kui antud projektis on eelnevalt salvestatud päringud, ilmuvad need rippmenüüna Query väljale klõpsates - nii saad kasutada olemasolevaid otsinguid päringutena.
Vali väljad, mille peal hakatakse klasterdama. Valitud väljad peaksid sisaldama tekstiandmeid.
Märkus
Soovitame kasutada lemmatiseeritud või tokeniseeritud andmestikku. Lemmatiseerimine on eriti kasulik morfoloogiliselt keerukate keelye puhul. Tekstiandmeid saab tokeniseerida ja lemmatiseerida MLP abil,
Embedding - selle fraasijat kasutatakse tokeniseerimiseks. Selle võib jätta ka tühjaks.
Keywords filter - defineerib (regulaaravaldisena) filtreid tähenduslikele sõnadele, mida ei soovi kasutada.
Stopwords - klasterdamise ajal ignoreeritavad stoppsõnad.
Clustering algorithm - kasutatav klasterdamisalgoritm. Minibatchmeans on kmeans algoritmi ajatõhusam variant, seda potentsiaalselt kvaliteedi arvelt. Vectorizer - on meetod dokumendivektorite loomiseks.
Document limit - klasterdusse minevate dokumentide hulk. Suurim võimalik on 10000 dokumenti.
Num cluster - loodavate klastride koguarv
Num dims - maksimaalne võimalik dokumendivektorite dimensioon.
Num topics - dimensioonide arv, kui Use LSI on valitud.
Use LSI - kui valitud, siis kõrge dimensioonide arvuga dokument-termini vektorid vähendatakse väiksema dimensioonide arvuga vektoriteks, mis põhinevad „teemadel“.
Märkus
Kuidas valida klastrite arvu?
Üldine soovitus on pigem valida liiga palju klastreid kui liiga vähe. Mõtle, kui palju dokumente plaanid klasterdada ja vali number nii, et keskmine klaster on piisavalt väike hõlpsasti käsitsi kontrollimiseks. Näiteks, kui klasterdad 1000 dokumenti 50 klastrisse, siis keskmises klastris peaks olema 20 dokumenti.
Klastrite vaatamine¶
GUI¶
Klõpsa View clusters valikule Action’ite all. Sealt saad ülevaate tekkinud klastritest. Iga klastri kohta on antud dokumentide arv, keskmine dokumentidevaheline koosinussarnasus ning klastrile iseloomulike sõnade nimekiri.
Märkus
Dokumentide arvu tõlgendamine
Teistest märkimisväärselt suurema dokumentide arvuga klaster viitab sellele, et klasterdamisalgoritm ei suutnud eristada dokumente teemade kaupa. See ei tähenda ilmtingimata, et klasterdamine polnud edukas, kuna tihti on võimatu klasterdada kõik dokumendid edukalt. Taolisi klastreid tasub siiski hoolikalt uurida - sellel võib olla teisi põhjuseid ka. Näiteks võivad selle klastri dokumendid sisaldada sarnast müra või stoppsõnu, mis teeb neid tehislikult üksteisele sarnasemaks. mõnikord võib aidata ka klastriarvu tõstmine.
Keskmise sarnasuse tõlgendamine
Keskmine sarnasus on keskmine koosinussarnasus klastris kõikide dokumentide vahel. See on vahemikus 0 kuni 1 ning kõrgem skoor viitab suuremale sarnasusele. Sellel skooril on ka puuduseid. Näiteks, kui klastris on 9 dokumenti, mis on üksteisele väga sarnased ning 10 dokument on teistsugune, siis võib skoor tunduda madal, kuigi taolise klastri parandamine on väga kerge.
Dokumentide vaatamine klastri sees¶
GUI¶
Vajuta klastrile, mis pakub huvi. See avab klastrisisu detailvaate.
Operatsioonid klastriga¶
GUI¶
Märgenda dokumente¶
Kui klaster sisaldab samateemalisi dokumente, on soovitatav need dokumendid ära märgendada ning klaster kustutada. Klõpsa Tag nupule. Selle abil saab lisada texta facti igale dokumendile selles klastris vabalt valitud nime ja väärtusega. Edaspidi ignoreeritakse neid dokumente klasterdades.
Kustuta dokumente¶
See funktsionaalsus on kasulik, kui mõned dokumendid antud klastris on teisest teemast ning on vaja need eemaldada - vali dokumendid, mida soovid eemadlada ning klõpsa prügikasti ikoonile.
Lisa veel dokumente¶
Sa võid tunda huvi, kas andmestikus on veel dokumente, mis on sarnased juba klastris olevatele. Sel juhul saad need dokumendid ka samasse klastrisse lisada, et oleks võimalik neid koos märgendada. Vajuta „More like this“ nupule, et pärida sarnaseid dokumente. Avanenud vaates vali dokumente, mida soovid klastrisse lisada ning vajuta + nupule.
Kustuta klaster¶
Soovitame kustutada klastri, kui oled selle ära märgendanud. Selleks vajuta Delete nuppu.