wij bellen u

Vul uw telefoonnummer in en wij bellen u z.s.m. terug!



tm7_22

header language technology carp small

TOEPASSINGEN

Met de standaard Carp producten kunnen wij u helpen met ongestructureerde data. Deze zijn ontwikkeld met onze eigen Carp taaltechnologie en zijn direct inzetbaar. Daarnaast kunnen wij specifieke oplossingen maken met onze vele onderliggende low-level technieken. Hieronder leest u een aantal toepassingen die wij hebben gerealiseerd.

Automatisch samenvatten

Sammenvatten voor tablets of mobiel

Op tablets of een mobiel moet informatie compacter getoond worden. Volledig automatisch sammenvatten is daarbij handig, zie hiervoor meer bij onze ziektebeelden use-case voor UMC RADBOUD.

Gesproken tekst samenvatten en doorzoeken

Bij de rechtspraak worden alle zittingen opgenomen. Via voice recognition kan dit worden omgezet in gesproken tekst. Omdat niet iedereen even verstaanbaar is, zal de gesproken tekst niet altijd kloppen.

Zo hebben de professionals van TM7 tekstsamenvat-technologie ontwikkeld met een indexering naar geluidsopnamen waarmee rechters de samenvattingen raadplegen en exacte stukken tekst direct beluisteren. Lees hier meer.

Anonimiseren

Anonimiseren – Rechtbank Utrecht

Om jurisprudentie toegankelijk te maken voor advocaten is het van belang dat in Nederland uitspraken van rechters openbaar worden gemaakt. Voordat ze worden gepubliceerd moeten ze wel eerst worden geanonimiseerd. Daarbij worden alle privacygevoelige passages vervangen door een geschikte vervangingsterm. Lees hier meer over de anonimiseringsapplicatie voor de Rechtbank Utrecht.

Andere toepassingen

De hiervoor genoemde voorbeelden vormen slechts een greep uit de toepassingsmogelijkheden van taaltechnologie. Deze technieken worden ieder gerealiseerd door weer onderliggende low-level technieken uit de taaltechnologie en in andere combinaties kunnen er steeds nieuwe technologieën worden gevormd.

Fuzzy matching

Op een ‘tolerante’ en associatieve manier worden teksten vergeleken en wordt er bepaald in hoeverre deze overeenkomen. Ondanks dat de teksten niet woordelijk overeenkomen, kunnen ze toch met elkaar worden gematcht. Hierbij wordt gebruik gemaakt van zinsontleding, synoniemen, gerelateerde termen, alternatieve vervoegingen, et cetera.

Query expansion

Zoekvragen (binnen een zoekmachine) worden geanalyseerd en kunnen automatisch worden uitgebreid met synoniemen, alternatieve vervoegingen en gerelateerde termen. Ook type- en spelfouten worden verbeterd.

Pattern matching (patroonherkenning)

Handmatig gedefinieerde patronen in teksten worden herkend en daaruit worden eventuele parameters geëxtraheerd. De patronen worden dusdanig gespecificeerd dat een breed scala aan verschillende verwoordingen wordt herkend.
Bijvoorbeeld: ‘Ik wil <aantal> kaartjes bestellen voor de voorstelling <titel> van <artiest> op <datum>.’

Zinsontleding, grammaticale analyse

De zinsstructuur en de rol van de verschillende zinsonderdelen worden bepaald.

Chunking

Een zin wordt opgesplitst in logische onderdelen.
Bijvoorbeeld: [‘De gemene hond] van [de buurman] bijt [de kat].’

Keyword extraction, keyphrase recognition

Hier wordt bepaald welke woorden en passages in een tekst markant zijn. Deze geven een indicatie van het onderwerp van de tekst.

Type- en spelfoutencorrectie

Hier worden suggesties gegenereerd voor correcties.

De groepeerder

Met de groepeerder kunnen tekstitems of concepten worden gelokaliseerd in een tekst en ter vergelijking bij of naast elkaar worden getoond. Hiermee kan men zich sneller en gemakkelijker complexe teksten eigen maken.

De ontdubbelaar

De ontdubbelaar kan nagaan of teksten die in verschillende woorden zijn opgesteld toch dezelfde inhoud hebben. Met deze tool kunnen nieuwsteksten worden ontdubbeld, parafrases worden vastgesteld of kan plagiaat worden opgespoord.

Combinaties

Diverse combinaties van taaltechnologieën maken meerdere toepassingen mogelijk. Hieronder vindt u een aantal ideeën ter inspiratie.

Automatisch vragen beantwoorden

Bepaalt welk FAQ-antwoord het beste past bij een gestelde vraag en extraheert met behulp van patroonherkenning en zinsontleding eventueel ook relevante parameters uit de vraag, die worden ingevuld in het antwoord of gebruikt worden in een dynamisch gegenereerd antwoord.

Dialoogsysteem

Voert een chatgesprek met een gebruiker voor onder andere zelfhulp, op basis van bijvoorbeeld een FAQ. Kan ook gebruikt worden voor ‘transacties’ zoals het bestellen van kaartjes, financiële berekeningen, etc. Met patroonherkenning en zinsontleding worden de relevante gegevens uit de gebruikersuitingen geëxtraheerd.

User profiling

Op basis van geraadpleegde teksten wordt automatisch een interesseprofiel opgebouwd. Het profiel bestaat uit een ‘wolk’ van markante woorden en wordt gebruikt om te bepalen in hoeverre bepaalde content (document, advertentie, etc.) bij het profiel past (fuzzy matching). User profiling kan ook gebruikt worden om een verzameling documenten (bijvoorbeeld zoekresultaten) te sorteren naar relevantie ten opzichte van het profiel.

Redactionele hulpmiddelen

Er wordt als het ware meegekeken over de schouder van de redacteur en geholpen bij specifieke redactionele taken door bijvoorbeeld relevante passages op te lichten. De mogelijkheden zijn legio: het samenvatten van teksten in belangrijke passages, het anonimiseren van privacygevoelige passages, het redigeren van teksten, etc.

Hulpmiddel voor redigeren van teksten

Zoekmachines zoals Google waarderen zoekresultaten waarvan de inhoud elders ook letterlijk voorkomt, veel lager. Dit geeft bijvoorbeeld problemen voor webwinkels die de productomschrijving van fabrikanten letterlijk overnemen. TM7 heeft een tijdbesparend hulpmiddel ontwikkeld welke op een interactieve wijze suggesties doet in de tekst voor parafraseringen die met één klik zijn over te nemen. Dit hulpmiddel is o.a. ook geschikt voor partijen in de nieuwsbranche.

Hulpmiddel voor samenvatten

Redacteurs van knipselkrantdiensten maken handmatig leesvervangende samenvattingen van (tijdschrift)artikelen. Het maken van deze samenvattingen is zeer tijdrovend. TM7 heeft een hulpmiddel ontwikkeld dat redacteuren ondersteunt. De redacteur kan hiermee op interactieve wijze heel snel de belangrijke tekstonderdelen verzamelen en vervolgens bewerken tot een eigen samenvatting.

Hulpmiddel voor trainen classifier

Een interactieve gebruikersinterface voor het trainen van de classifier. Trainingsdocumenten kunnen in bulk worden ingeladen en indien nog niet gespecificeerd, suggereert de software alvast welke labels erbij horen. In de tekst worden de woorden gemarkeerd die bij het label passen waarin de gebruiker naar eigen behoefte aanpassingen kan maken. Ook bevat de software uitgebreide testfuncties om te controleren hoe goed de classifier werkt. In tabellen wordt dan feedback gegeven welke labels bijgetraind of bijgestuurd dienen te worden.

Stijlcontrole/huisstijlmanagement

Hiermee wordt gecontroleerd of teksten passages bevatten die niet voldoen aan vastgestelde stijlrichtlijnen zoals het omzeilen van ingewikkelde taalconstructies.

Signalering

Hiermee wordt gecontroleerd of teksten bepaalde passages bevatten waarop moet worden gesignaleerd. Bijvoorbeeld voor bedreigingen op social media en fora, maar ook het inboeken van facturen op de juiste post op basis van omschrijving is hiermee mogelijk. Signalering kan ook gebruikt worden voor analyses op documentverzamelingen, bijvoorbeeld om te bepalen hoe vaak complicaties worden genoemd in medische verslagen.

Clustering

Clustering schept orde in een verzameling documenten door soortgelijke documenten te bundelen op basis van de inhoud. Per cluster kunnen vervolgens trefwoorden worden gegenereerd. Deze techniek is ook bruikbaar voor geassisteerde dossiervorming, waarbij eerst handmatig een aantal documenten wordt verzameld die bij een bepaald dossier horen en het systeem vervolgens automatisch overige relevante documenten toevoegt.

Recensies analyseren

Met chunking en keyphrase recognition worden aspecten bepaald, zoals: ‘bedden te zacht’ en vervolgens worden met fuzzy matching alle soortgelijke uitingen verzameld, zodat kan worden bepaald hoe vaak ze voorkomen. Deze worden gebundeld met de bijbehorende recensies zodat er kan worden bepaald met welke beoordelingen deze aspecten gemiddeld corresponderen (‘bedden te zacht’ correspondeert met 2 sterren). Hierdoor ontstaat een veel beter inzicht en overzicht van de beoordelingen op diverse aspecten. In één oogopslag is duidelijk welke aspecten het meest worden genoemd (100 x ‘slechte bediening’) en in welke gemiddelde beoordeling dit resulteert. Soortgelijke technieken zijn toepasbaar voor het verwerken van open vragen in bijvoorbeeld enquêtes. Daarnaast kunnen ook clustering en classificatie worden toegepast voor het scheppen van orde in grote hoeveelheden open antwoorden.

Onderwerptoekenning

Trefwoorden worden toegekend aan documenten op basis van markante woorden en frases in de tekst (keyword extraction) of gelabeld met externe labels (classificatie).

Zoekwizard

Met de zoekwizard wordt een zoekvraag door een eindgebruiker als het ware begeleid naar een vraag die door een IT-systeem begrepen kan worden. Bij het invoeren en herkennen van een vraag worden er automatisch zoekvragen gegenereerd op basis van een beschrijvende tekst en doet de computer suggesties voor synoniemen en gerelateerde termen. De zoekvragen worden automatisch uitgebreid met suggesties voor synoniemen, gerelateerde termen, etc. (query expansion).

Bij de weergave van de zoekresultaten worden zoekresultaten gesorteerd naar relevantie op vraag, interesseprofiel, etc. Met de zoekwizard kun je soortgelijke resultaten samenvoegen (clustering) en zoekresultaten labelen met onderwerpen. Daarnaast genereert het korte samenvattingen voor snel inzicht in relevantie.

Informatie-extractie

Met behulp van patroonherkenning worden specifieke kenmerken en gegevens uit een verzameling documenten geëxtraheerd en verzameld voor rapportagedoeleinden.

Compliance management

Wetgeving resulteert bij grote bedrijven in regelgeving. Bij een wetswijziging moeten aanpassingen gemaakt worden in allerlei documenten. Als een bepaalde passage moet worden aangepast in bijvoorbeeld de voorwaarden van een bepaald financieel product, dan dienen ook alle soortgelijke passages in de overige voorwaarden te worden aangepast. Taaltechnologie kan assisteren door met fuzzy matching die andere soortgelijke passages te verzamelen en suggesties te doen voor soortgelijke aanpassingen.

Probeer op onze Playground enkele toepassingsmogelijkheden van verschillende taaltechnologieën!