Natural Language Processing (NLP) ist ein Zweig der Informatik, der darauf abzielt, geschriebene und gesprochene Sprache für Computer verständlich zu machen. Die Sprache, die Computer am besten verstehen, besteht aus Code, allerdings kommunizieren Menschen in der Regel nicht in Codes und bevorzugen die natürliche Sprache.
NLP ist laut Gartner „die Technologie der natürlichen Sprachverarbeitung, die in der Lage ist, Text oder Sprache auf der Grundlage einer geeigneten Ontologie in codierte, strukturierte Informationen umzuwandeln.“
Anwendungen von NLP
NLP steuert bekannte Computerprogramme, etwa Übersetzungsprogramme wie Google Translate oder Deepl, Sprachassistenten wie Siri, Alexa oder Googles Assistant oder Chatbots wie Amazons Lex-Bot oder Kim von Maggi. Aber es gibt auch weniger bekannte Anwendungen, die sich auf NLP stützen. Im Gesundheitswesen wird die NLP-Technologie eingesetzt, um Erkenntnisse aus früheren Patientendaten zu generieren. Unstrukturierte Daten im Gesundheitswesen können mit NLP präzise organisiert werden, um Erkenntnisse für die Patientenbehandlung zu generieren oder die prädiktive Analyse über den Gesundheitszustand von Patienten zu verbessern.
Wofür NLP genutzt werden kann:
-
Automatische Übersetzung von einer Sprache in eine andere
-
Zusammenfassen von Text
-
Spracherkennung oder Transkription gesprochener von Sprache in Text
-
Formulierung von geschriebenem Text in gesprochener Sprache
-
Textklassifizierung – Zuweisung von vordefinierten Kategorien zu Textdokumenten
-
Suchfragenanalyse und Inhaltsanalyse – Ermittlung der Absichten und Bedürfnisse einer Person bei der Interaktion mit einer Maschine (Chatbot, Suchmaschine, Sprachassistent)
-
Spam-Erkennung (Erkennung von Wörtern, Grammatikfehlern)
Wie funktioniert NLP?
NLP besteht aus mehreren Phasen. Die ersten Phasen konzentrieren sich hauptsächlich auf die Umwandlung von Text in strukturierte Daten, während die späteren Phasen mehr auf die Extraktion von Bedeutung ausgerichtet sind. Dieser Prozess kann in sechs Phasen unterteilt werden:
1. Vorverarbeitungsphase
In dieser Phase geht es darum, den Text von allen unnötigen Elementen zu befreien, damit der Algorithmus ihn später besser verarbeiten kann. Dazu gehört unter anderem das Entfernen von Akzenten, HTML-Tags, Großbuchstaben, Sonderzeichen, die Umwandlung geschriebener Zahlen in die numerische Form usw.
Auch die Tokenisierung, also die Umwandlung von Text in kleinere Einheiten (Token), spielt hier eine wichtige Rolle.
Das Entfernen und Filtern von Stoppwörtern und irrelevanten Token wird ebenfalls in dieser Phase durchgeführt.
2. Morphologische oder lexikalische Analyse
Diese Phase konzentriert sich auf die Struktur und den Aufbau von Wörtern. Es werden verschiedene Techniken eingesetzt, darunter die Stammformreduktion und die Lemmatisierung. Ziel dieser Analyse ist es, die Anzahl der gespeicherten Token so weit wie möglich zu begrenzen. Wenn es also bereits ein Token für das Verb „kochen“ gibt, können Regeln erstellt werden, um beispielsweise auch das Substantiv „Kochen“ und seine Konjugation „kocht“ damit zu verbinden. Und wenn ein Verb konjugiert auftritt, kann der Stamm abgeleitet werden.
3. Syntaktische Analyse
Im Rahmen der syntaktischen Analyse werden die Sätze sprachlich nach formaler Grammatik zerlegt (Parsing auf Englisch). Durch die Angabe von grammatikalischen Strukturen wird es möglich, bestimmte Zusammenhänge aus Texten zu extrahieren.
4. Semantische Analyse
Dies ist der Prozess der Ableitung von Bedeutung aus einem Text. Mittels semantischer Analyse können Computer Zusammenhänge zwischen Wörtern, Sätzen und dem Kontext ableiten. Dazu verwendet NLP eine Reihe von Bausteinen: Entitäten, Konzepte, Relationen und Prädikate. Diese Bausteine werden mit Hilfe eines trainierten Algorithmus automatisch aus einem Text gefiltert.
5. Diskurs
Die Diskursintegration betrachtet bei der Interpretation eines Satzes die vorhergehenden Sätze. In den folgenden zwei Sätzen „Céline mag Hunde sehr. Sie hat ungefähr zehn.“, ordnet der Diskurs das Wort „sie“ dem Wort „Céline“ zu.
6. Pragmatik
Die letzte Phase des NLP, die Pragmatik, interpretiert die Beziehung zwischen sprachlichen Äußerungen und der Situation, in der diese Äußerung passt, sowie die Wirkung, die der Sprecher oder Schreiber mit der sprachlichen Äußerung beabsichtigt. Die beabsichtigte Wirkung eines Satzes kann manchmal unabhängig von der Bedeutung sein. Zum Beispiel kann der Satz „Es ging nicht besser!“ auch bedeuten, dass es schlecht läuft.
Anwendungsgebiete
Warum ist NLP auch für Unternehmen nützlich, die keine Suchmaschinen-, Chatbot– oder Übersetzungsdienste anbieten? Weil du mit NLP Texte in vordefinierte Kategorien einordnen oder bestimmte Informationen aus einem Text extrahieren kannst.
Die Klassifizierung oder Datenextraktion kann Unternehmen dabei helfen, aus unstrukturierten Daten aussagekräftige Informationen zu extrahieren und diese zur Verbesserung ihrer Arbeitsprozesse zu nutzen. Nachfolgend einige Beispiele.
Datenextraktion
Die Datenextraktion hilft Unternehmen, Informationen aus unstrukturierten Daten automatisch und regelbasiert zu extrahieren. Ein Beispiel ist das Filtern von Rechnungen mit einem bestimmten Datum oder einer bestimmten Rechnungsnummer. Die automatische Analyse von E-Mail-Anhängen oder die Filterung von Daten nach Betreffzeile gehören ebenso zur Datenextraktion. Dies ist auch nützlich, um Korrekturen an extrahierten Informationen vorzunehmen.
Themenklassifizierung
Das Sortieren von Text in vordefinierte Kategorien auf Basis des Inhalts (auch Themenklassifizierung genannt) ist eine Anwendung von NLP, die für den Kundenservice in Unternehmen nützlich ist. Tickets oder E-Mails von Kunden werden automatisch klassifiziert und in verschiedene Kategorien wie ‘Preisinformation’, ‘Reklamation’, ‘technisches Problem’ eingeordnet. Dies hilft Organisationen, ihre Arbeitsabläufe zu verbessern und einen besseren Kundenservice zu bieten, da der Kunde sofort an den richtigen Mitarbeiter/die richtige Abteilung weitergeleitet wird.
Stimmungsanalyse
Ein weiteres Beispiel für eine NLP-Anwendung, aus der Unternehmen einen Nutzen ziehen können, ist die Stimmungsanalyse. Die Stimmungsanalyse wird verwendet, um die emotionale Aufladung eines Textes zu ermitteln, ohne den Text lesen zu müssen. Dies ist etwa bei der Analyse von Social-Media-Beiträgen, E-Mails oder Kundenrezensionen nützlich. Das Verfolgen von Kundenmeinungen ist wichtig für einen guten Service, aber auch für die Marktforschung oder die Bewahrung eines Rufs oder die Entwicklung einer Marke.
Die Stimmungsanalyse wird auch in der Forschung eingesetzt, um ein Bild davon zu bekommen, wie Menschen über ein bestimmtes Thema denken. Es ermöglicht dir, offene Fragen in einer Umfrage schneller zu analysieren.
Es ist nicht unbedingt notwendig, ein eigenes Klassifizierungssystem von Grund auf aufzubauen und einen Algorithmus zu trainieren. Es gibt Tools auf dem Markt, die Stimmungsanalysen anbieten und jeden eingegebenen Text auf Basis eines vorhandenen Korpus automatisch interpretieren können. Diese Tools können auch große Datenmengen aggregieren und in Grafiken oder Diagrammen darstellen und so z.B. Trends im Kundenfeedback klar darstellen.
Absichtsklassifizierung
Dies ist die Klassifizierung von Text basierend auf der Kundenabsicht. Damit kannst du Kunden-E-Mails oder Verhaltensweisen von Kunden auf einer Skala von nicht interessiert bis interessiert klassifizieren. Dies ermöglicht es, Kunden, die ein Produkt ausprobieren möchten, proaktiv zu erreichen oder die richtige Verkaufs-E-Mail zum richtigen Zeitpunkt zu versenden.
Du siehst also, dass Natural Language Processing viele Anwendungen für die Automatisierung und Datenanalyse hat. Es ist eine der Technologien, die die zunehmend datengetriebene Unternehmensführung und die Hyper-Automatisierung vorantreiben und Unternehmen dabei helfen kann, Wettbewerbsvorteile zu erlangen.