Otsing (Search)¶
Otsingurakendus (Search) võimaldab kasutajal teha otsinguid ja agregatsioone. Lisaks on otsingutulemusi võimalik anda sisendiks masinõppemudelitele.
Märkus
Enne otsingu kasutamist tuleb ülevalt paremast nurgast valida projekt ja indeksid, mille peal otsingut tehakse.
Otsingu graafiline kasutajaliides (Joonis 41) koosneb kolmest paneelist. Nendeks on praegune otsing (Current Search), salvestatud otsingud (Saved Searches) ja agregatsioonid (Aggregations). Vaikimisi on avatud praegune otsing. Alamosa avamiseks ja sulgemiseks kliki vastava osa nimele.
Märkus
Otsing teostatakse ainult indeksitel, mille kasutaja on ülemises paremas nurgas olevast indeksite menüüst valinud.
Praegune otsing¶
GUI¶
Praegune otsing on mõeldud andmete sirvimiseks. Otsingutulemusi saab ka piirata ainult meile huvipakkuvatele dokumentidele. Selleks on vaja luua filtrid ehk kitsendused. Iga filtri puhul tuleb valida, mis väljale või väljadele seda rakendatakse. Filtreid saab luua nii lihtsas otsingus (Simple Search) kui ka detailses otsingus (Advanced Search).
Märkus
Praegune otsing ei erista väikest ja suurt tähte (välja arvatud regulaaravaldisfiltrite puhul). See tähendab, et näiteks kui otsida sõna „President“ siis kuvatakse ka dokumendid, kus leidub sõna „“president“. Kui sinu otsing on siiski tõstutundlik, tuleb kasutada regulaaravaldisfiltreid (vt. allpool).
Lihtne otsing (Simple Search)¶
Lihtsa otsingu puhul otsitakse sisestatud sõnu kõigilt andmestikus või andmestikes olevatelt väljadelt. Sõnad peavad olema eraldatud tühikuga (“ „). Otsing kuvab kõik dokumendid, kus iga etteantud sõna leidub vähemalt ühel väljadest.
Lihtsa ostingu kasutamiseks vali see praeguse otsingu paneelilt ja sisesta lahtrisse sõnad, mida sa soovid väljadelt otsida.
Detailne otsing¶
Detailse otsinguga saab igale väljale luua erinevad filtrid. Filtrite tüüpe on kokku kolm: tekstifiltrid, kuupäevafiltrid ja texta_facts väljale rakendatavad filtrid.
Detailse otsingu kasutamiseks vali see praeguse otsingu paneelilt. Seejärel vali väljad, millel sa tahad filtrit rakendada. Rippenüü sulgemiseks kliki väljaspool seda menüüd. Avaneb kast, mille sees saad luua soovitud fitri (Joonis 43). Filtri kustutamiseks kliki kasti üleval paremas nurgas oleval ‚X‘-märgil.
Tekstifiltrid¶
Eri otsingusõnad tuleb kirjutada eraldi ridadele. Otsisõnu peab siduma loogikaoperaator (Operator) alljärgnevast tabelist:
Operaator |
Selgitus |
---|---|
ja (and) |
kõik (eri ridadel) olevad otsisõnad või -fraasid peavad dokumendis esinema |
või (or) |
vähemalt üks (eri ridadel) olevatest otsisõnadest või -fraasidest peab dokumendis esinema |
ei (not) |
dokumendis ei tohi esineda ühtegi etteantud otsisõna -või fraasi |
Samuti tuleb sul valida reegel otsisõna sobitamiseks (Match). Need on toodud alljärgnevas tabelis:
Reegel |
Selgitus |
---|---|
prefiks (phrase prefix) |
sobivad kõik sõnad või fraasid, mille algus vastab otsisõnele. Näiteks otsisõne ‚jook‘ korral tagastaks ka dokumendid, kus sisaldub sõna ‚jooksma‘, ‚jooksin‘ jne |
sõna (word) |
dokumendis peab leiduma otsisõne täpselt etteantud kujul (sarnaselt lihtsale otsingule) |
fraas (phrase) |
dokumendis peab leiduma otsifraas (rohkem kui üks sõna reas) täpselt etteantud kujul |
regulaaravaldis |
dokumendis peab leiduma regulaaravaldisele vastav sõne. NB! Kasutada tuleb Elasticsearch’i süntaksit. |
Viimaks on sul võimalus määrata väärtus parameetrile Slop. Juhul, kui mõni sinu otsisõne on tegelikult fraas ja koosneb rohkem kui ühest sõnast, siis Slop määrab, kui mitu muud sõna tohib sinu määratud otsisõnade vahel olla.
Joonisel Joonis 43 on tekstifilter loodud väljale text. Otsing kuvab dokumendid, kus leidub kas fraas „president Obama“ või „president Trump“ või mõlemad. Kuna parameetri Slop väärtus on 2, võib fraasi sõnade vahel olla 0-2 muud sõna. Seega tagastab otsing ka näiteks dokumendi, kus leidub fraas „president Barack Obama“).
Kuupäevafiltrid¶
Kuupäevafiltreid saab kasutada date-tüüpi väljadel. Filter tagastab dokumendid, kus välja väärtus jääb valitud ajavahemikku (alguskuupäev kaasa arvatud ja lõppkuupäev välja arvatud). Ajavahemiku saad valida, klikkides väikesele kalendri ikoonile.
Välja texta_facts filter¶
Välja texta_facts filter võimaldab dokumente filtreerida faktide nimede ja väärtuste järgi.
Fakti nime järgi filtreerimine
Erimevatel faktinimedel erinevate filtrite kasutamine
Selleks, et lisada erinevatele faktinimedele erinevaid filreid, tuleb väljade menüüst valida välja texta_facts[fact_name] mitu korda.
Fakti väärtuse järgi filtreerimine
Lisavalikud otsingutulemuste kuvamisel¶
Alljärgnevas tabelis on kirjeldatud otsingutulemuste kuvamise lisavalikud.
Valik |
Selgitus |
---|---|
Esiletõstetud faktid (Highlight facts) |
kõik teksis esinevad faktid on värviliselt esile tõstetud |
Tõsta esile ainult sobitatud faktid (Only highlight matching facts) |
esile on tõstetud ainult faktid, mille alusel otsing tehti |
Tõsta esile otsingu sobitused (Highlight searcher matches) |
esile on tõstetud kohad, mis sobituvad tekstifiltritega |
Näita lühiversiooni |
näitab ainult väikest tekstiosa enne ja pärast otsingufiltri sobitust |
Näidisotsingud¶
Otsingutulemuste sirvimine¶
Klikkides nupule Search kuvatakse otsingufiltritele vastavad dokumendid. (vt Joonis 51).
Otsingutulemuste kohal olevast rippmenüüst on võimalik valida väljad, mida tulemustes kuvatakse. Neid saab lisada ja eemaldada nii ühekaupa kui ka korraga valiku Select all abil.
Nupp Toggle drawer peidab otsingupaneeli.
Otsingutulemuste lehekülgede vahel liikumiseks kasuta üleval paremas nurgas olevaid noolekesi. Samast kohast on võimalik valida, mitu dokumendi ühel lehel kuvatakse.
API¶
API tugi tulemuste lehtsemiseks on leitav siit.
Salvestatud otsingud¶
GUI¶
Otsingu salvestamiseks kliki salvestusikoonile otsingupaneeli ülemises paremas nurgas. Salvestatud otsingute eeliseks on, et neid on võimalik kasutada Texta Toolkiti teistest rakendustest. Näiteks saad sa kasutada otsingut selleks, et koostada positiivsete näidete hulk taggeri treenimiseks või dokumendite kogu, mida teemaanalüsaatoriga analüüsida. Loomulikult võid sa otsingu salvestada ka lihtsalt selleks, et tulemusi hiljem uuesti sirvida: salvestatud otsingu aktiveerimiseks kliki selle nimel.
Juhul, kui sind huvitab, kuidas sinu koostatud otsingule vastav Elasticsearchi päring päriselt välja näeb, kliki silmaikoonile (asub otsingu salvestusnupu kõrval).
API¶
API tugi otsingute salvestamiseks on leitav siit.
Agregatsioonid (aggregations)¶
GUI¶
Agregatsioonide tööriist võimaldab sul andmeid agregeerida. Näiteks võid seda kasutada selleks, et leida välja väärtuste või sõnade sagedusjaotusi.
Eeldame illustreerimise eesmärgil, et meil on Toolkitis andmestik mingist ajaperioodist pärit eestikeelsete Redditi postitustega. Me saame agregeerida selle andmestiku välja post_title, et leida antud ajapeperioodi poplaarseim lõim (vt. Joonis 53).
Teades nüüd, et kõige populaarsem lõim on Coronavirus megathread, võib meid huvitada, millised on need sõnad, mis iseloomustavad seda lõime võrlduses teiste lõimedega kõige paremini. Texta Toolkitis on selliste sõnade kohta kasutusel mõiste significant words ja need saab samuti tuvastada agregeerimise abil (vt Joonis 54).
Märkus
- Kuidas significance-skoori arvitatakse?
Lühidalt öeldes on sõna või väärtus iseloomulik siis, kui seda esineb otsingule vastavates dokumentides märgatavalt rohkem kui ülejäänud dokumentides.
Senimaani oleme vaadelnud lihtsamat sorti sõnade ja väärtuste agregeerimist. Tegelikult aga võimaldab agregatsioonide tööriist teha väga palju rohkemat.
Näiteks saab sellega uurida andmete jaotust üle huvipakkuva ajaperioodi. (vt. Joonis 55). NB! Selliste graafikute tegemiseks peab kuupäeva sisaldav väli olema korrektselt kuupäevaformaadis.
Kui sul on dokumentidel küljes ka faktid, saad nende väärtuste esinemissagedust samuti visualiseerida (vt. Joonis 56). Joonisel Joonis 56 on üleval keskel näha kolm ikooni. Neil klikkides saad muuta tulemuste visualiseerimise viisi - kas hierarhiliselt, tabelina või graafikuna.
Salvestatud otsinguid kasutades on võimalik korraga visualiseerida mitme erineva alamhulga ajalist jaotust. Näiteks kui meie andmestik koosneb ajaleheartiklitest, võib meile huvi pakkuda, kui palju erinevaid poliitikuid on eri ajaperioodidel uudistes mainitud (vt. Joonis 57).