EN ET

Kasutuslood

Siin näidatakse, kuidas kasutada erinevaid Texta Toolkiti tööriistu erinevatele uurimisküsimusele vastamiseks.

Kuidas otsida kindla teemaga artikleid, kui Sa ei tea piisavalt teemasõnu?

Uurimisküsimus: Milline on sporditeemaliste dokumentide sagedus läbi aja?

Eeldused:

  • Projekt ajalehe Sputnik artiklitega on loodud.

  • See projekt on aktiivne (valitud ülaplaneelil paremal).

Treeni keelemudel (embedding)

Mine Models > Embeddings. Klõpsa „CREATE“-nupul ülal vasakul. Loo keelemudel (Joonis 144). Loe rohkem keelemudelite parameetrite kohta siit.

_images/embedding.png

Joonis 144 Sputniku keelemudeli loomine

See võib võtta natukene aega. Kui keelemudel on treenitud, saab kasutada Lexicon Minerit.

Kasuta Lexicon Minerit

Kasuta Lexicon Minerit sproditeemaliste sõnade kaevandamiseks.

_images/miner.png

Joonis 145 Seemnesõnade sisestamine enne „New Suggestions“-nupule vajutamist

Sisesta mõned seemnesõnad (näidis Joonis 145), klõpsa „New Suggestions“-nupul, vajuta sobivatele terminitele ja korda tegevust kuni soovitused (suggestions) sisaldavad veel sobivaid termineid. Seejärel vajuta „Save“.

Lisa

Uurimisküsimus: Kas spordiga seotud artiklite arvukus varieerub ajas?

Ava Aggregations paneel ja vali kuupäeva väli (Texta kuupäeva formaadis) dokumentide agregeerimiseks ajagraafikul.Seadista teisi valikuid nagu on näidatud Joonis 147 või jäta need vaikimisi. Vajuta „Aggregate“- nupule.

_images/aggregate_sport.png

Joonis 147 Aktiivse spordi-teemalise otsingu tulemuste agregatsioon kuupäevaväljal

See väljastab joondiagrammi, mille X-teljel on sagedus ja Y-teljel kuupäev.

_images/linechart_sport.png

Joonis 148 Joondiagramm spodriteemaliste artiklite kohta vahemikus 01.01.2011-01.01.2015

Jooniselt on näha, et enim sporditeemalisi artikleid avaladati 2012. aasta augustis ning 2014. aasta veebruaris. Need kattuvad, üllatus-üllatus, suveolümpia (27.07.2012-12.08.2012) ja taliolümpia (07.02.2014-23.02.2014) kuupäevadega.

Millal on see termin kõige rohkem kasutusel olnud?

Uurimisküsimus: Kui sagedalt kasutatakse termineid „communism“ ja „communists“ Sputniku andmestikus läbi aja?

Eeldused:

  • Projekt ajalehe Sputnik artiklitega on loodud.

  • See projekt on aktiivne (valitud ülaplaneelil paremal).

  • Searcher on avatud.

Otsi termit/termineid

Vajuta „Advanced search“ nupule ja vali väli, millel on artikli sisu („article_text“). Joonis 149 kujutab otsingupiiranguid, mis tagastavad dokumente, kus on sõnad, mis algavad tähtedega „communis“ (nt „communism“, „communist“, „communists“) - operaator on „and“ või „or“, match on „Phrase prefix“ ning slop on 0. Vajuta „Search“-nupule.

_images/search_communism.png

Joonis 149 Otsingupiirangud kommunismiga seotud artiklite leidmiseks inglise keeles

Nüüd kuvatakse tablis kõik dokumendid (tegelikult esimesed 10000), mille need piirangud välja filtreerisid. Otsingutulemus on nüüd aktiivne. Soovi korral võib selle pärastiseks salvestada, aga kuna agregeerimine töötab aktiivsete otsingute põhjal, jäta tulemus nii nagu on.

Agregeeri üle aja

Ava Aggregations paneel ja vali kuupäeva väli (Texta kuupäeva formaadis) dokumentide agregeerimiseks ajagraafikul.Seadista teisi valikuid nagu on näidatud Joonis 147 või jäta need vaikimisi. Vajuta „Aggregate“- nupule.

_images/aggregate_communism.png

Joonis 150 *Aktiivse otsingu agregatsioon üle kuupäeva välja

Agregeerimisetulemused väljastatakse joondiagrammil. X-teljel on sagedus, Y-teljel on kuupäev (intervalli on võimalik muuta Aggregation paneelil Interval valiku all, kui kuupäevaformaat seda võimaldab)

Vaata rohkem agregeerimise näiteid Search all.

Kas mu uus dokument kuulub sellesse alamhulka?

Eesmärk: Treenida klassifitseerija, mis ennustab, kas teatud dokumentkuulub valitud dokumentide alamhulka või mitte

Eeldused:

  • Projekt ajalehe Sputnik artiklitega on loodud.

  • See projekt on aktiivne (valitud ülaplaneelil paremal).

Loo positiivsete dokumentide alamhulk

Kui kasutajal juba on andmestik mingil moel märgendatud (näiteks on andmestikus teatud märgendiväli vastava märgendiga), saavad nad kasutada Searcherit nende dokumentide kui positiivsete näidete välja filtreerimiseks ja salvestamiseks salvestatud otsinguga.

Kui andmestikus ei ole eelnevalt märgendatud dokumente, saab kasutaja treenida embeddingu ning kasutada Lexicon Minerit ja Searcherit vastavateemalise alamhulga loomiseks. Esimeses kasutusloos on selle kohta näide.

See kasutuslugu järgib esimest stsenaariumit ning salvestab sisuga „Middle East“ rubric väljaga dokumentide alamhulga (vt Joonis 151). Nendest saavad positiivsed näited, mille sarnaseid treenitav mudel positiivseks ennustama hakkab. Kasutaja salvestab otsingu vajutades disketi ikoonile Current Searchi paneelil.

_images/search_middleeast.png

Joonis 151 *Otsingu piirangud, mis leiavad artiklid, mille rubric väljal on „Middle East“

Treeni klassifitseerija

Models > Taggers all saab treenida klassifitseerija ehk taggeri ehk märgendaja. Kasutaja klõpsab „CREATE“-nupule ülal vasakul ning valib sobivad parameetrid ilumunud aknas. Salvestatud otsing valitakse kui päring (query). Väljad „article_text_mlp.text“ ja „title“ kleebitakse enne treenimist kokku üheks sisendiks. Kasutaja saab testida erinevaid vektoriseerijaid ja klassifitseerijaid oma parameetritega treenides erinevaid klassifitseerijaid sama alamhulga peal. Soovi korral võib treenida ka vaikimisi parameetritega.

_images/tagger_middleeast.png

Joonis 152 Artiklite, mille tegelik rubriik (rubric väli) on Middle East, klassifitseerija loomine

Pärast „Create“-nupu vajutamist (vajadusel keri pisut alla), jääb üle vaid oodata, kuni klassifitseerija treenib.

Testi klassifitseerijat

Kergeim viis kiiresti testida uue klassifitseerija tulemusi on kasutada „tag random doc“ valikut kolme nupu all (Actioni all). See võtab juhusliku dokumendi andmestikust ning väljastab taggeri tulemuse ja selle õigsuse tõenäosuse (probability).

_images/tag_random.png

Joonis 153 Tag random doc

_images/correct_false.png

Joonis 154 Juhuslik dokument ei ole Middle East teemaline ning tagger väljastab False (mitte märgendada)

_images/correct_true.png

Joonis 155 Juhuslik dokument on Middle East teemaline ja tagger väljastab õigesti True (märgendada)

Kasutaja saab ka oma teksti testida „tag text“ valikuga või taggerit API kaudu kasutades. Loe rohkem nende valikute kohta siit.