STATISTICA Text Miner
STATISTICA Text Miner zet ongestructureerde tekstuele gegevens om in begrijpelijke en bruikbare vorm. Tekstdokumenten, emails, vrije tekstvelden in enterprise applicaties, webpagina's, social media maar ook bitmaps en geluidsbestanden zijn geschikt om ongestructureerde informatie te categoriseren, te groeperen of op een andere wijze in een nadere analyse te betrekken. Met de verkregen inzichten kunnen klanten beter worden bediend, risico's nauwkeurig worden ingeschat en kosten worden beheerst.Toegang tot dokumenten
- De software is in staat tekstdokumenten te ontsluiten in de volgende formaten: .txt (tekst), .pdf (Adobe), .ps (PostScript), .html, .xml (webformaat) en de meeste Microsoft Office formaten (bijvoorbeeld .doc, .rtf).
- Bij het selecteren van meerdere bestanden in een bepaald formaat staan flexibele opties ter beschikking.
- Websearch wordt ondersteund als zoekmachine; alle dokumenten en gekoppelde dokumenten maken deel uit van de analyse.
- Bestandsnamen en URL's kunnen worden opgeslagen als tekst variabelen van STATISTICA bestanden.
Verwerking van dokumenten
Bij het samenstellen van een woord index kunnen dokumenten worden verwerkt en daarna worden geëvalueerd:- Het is mogelijk om uitsluitingsregels toe te passen om gebuikelijke maar analytisch niet relevante woorden (zoals: een, de) uit te sluiten.
- STATISTICA Text Miner bevat uitsluitingsregels en stamwoord algoritmes voor Nederlands, Duits, Engels, Frans, Italiaans, Spaans, Portugees, Deens, Zweeds en andere talen die relatief eenvoudig zijn toe te voegen. De uitsluitingslijsten kunnen door de gebruiker worden bewerkt en naar wens worden uitgebreid.
- De software genereert de onderliggende dokumenten, een index met frequenties van alle woorden. Deze informatie vormt de basis voor alle verdere numerieke analyses.
- Verschillende aanvullende filters zijn inzetbaar zoals schaal (frequentie van verschijning), transformatie en comprimeren.
- Het resulterende bestand met de numerieke gegevens is dan beschikbaar voor verdere analyse.
- Diverse opties zijn beschikbaar om gegevens uit de tekst in de STATISTICA Workspace of naar externe databases over te dragen.
Analyse van dokumenten
Alle statistische analyses zijn te gebruiken aan de hand van numerieke samenvattingen:- Met behulp van eenvoudige statistiek worden de meest gebruikte woorden in dokumenten getoond.
- Door het in kaart brengen van de omvang van dokumenten kunnen aan de hand van singuliere waarden puntgrafieken worden samengesteld. Op deze wijze zijn gelijkenissen te beoordelen.
- Mapping van dokumenten en woorden gebaseerd op frequentie geeft inzage in de betekenis van dokumenten.
- Cluster technieken (zoals EM of k-middelen) kunnen worden ingezet om groepen van overeenkomstige dokumenten te identificeren.
- Predictive data mining technieken kunnen worden gebruikt om de numerieke samenvattingen van dokumenten met andere interessante indicatoren (medische diagnose, opzet of bedrog) in kaart te brengen.
STATISTICA Text Miner is naadloos te integreren met STATISTICA en STATISTICA Data Miner.
Net zoals alle andere STATISTICA componenten is dit product ontwikkeld als een universele Workbench met een open systeem architectuur.
Voor een gedetailleerde beschrijving zie STATISTICA Text Miner

