KI „DistilBERT“ führt bei Schlagworten

KI

Das vortrainierte „BERT“-Sprachmodell „DistilBERT“ von Forschern des ZBW – Leibniz-Informationszentrum Wirtschaft ist in der automatisierten Schlagwort-Extraktion besonders effektiv.

Darüber hinaus bietet es die Möglichkeit, den Standard-Thesaurus Wirtschaft (STW) mit 6.000 Schlagwörtern und über 20.000 alternativen Sucheinstiegen in Deutsch und Englisch, unterstützt durch KI-Methoden, zu aktualisieren.

Anzeige

DistilBERT konkurrenzlos

Die Experten haben eine Methode entwickelt und getestet, die wichtige Fachbegriffe automatisch aus wissenschaftlichen Artikeln extrahiert, insbesondere aus Titeln und Abstracts. Das Team hat hierzu vortrainierte BERT-Sprachmodelle eingesetzt und verglich deren Leistungsfähigkeit mit konventionellen Methoden wie „TFIDF“, „TextRank“ und „KeyBERT“.

Die aktuelle Studie zeigt, dass das BERT-Modell DistilBERT insgesamt am effektivsten in der Schlagwort-Extraktion ist. Es konnte nicht nur präzise spezifische Schlüsselwörter aus den Wirtschaftswissenschaften identifizieren, sondern auch mehr potenzielle neue Begriffe für den Standard-Thesaurus Wirtschaft vorschlagen als konkurrierende Methoden.

ZBW-Datenbank als Grundlage

Die Datengrundlage bildete ein Datensatz der ZBW, der der Datenbank „ECONIS“ entstammt. Es wurden Titel, Abstracts und ausgewählte Metadaten, aber keine Volltexte, aus wissenschaftlichen Publikationen extrahiert. Die Metadaten umfassen Erscheinungsjahr und Sprache der Werke. Zudem wurden vorhandene Schlagwörter verschiedener Art ergänzt.

Anzeige

So zum Beispiel Stichwörter, die von den Autoren frei gewählt wurden, sowie auch vorhandene normierte Schlagwörter. Die Analyse hat sich auf Publikationen zwischen 2009 und 2021 beschränkt und resultierte in einem Datensatz von insgesamt beachtlichen 575.000 Einträgen.

www.pressetext.com

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.