Text mining mit der "Temi-Box"

Christine Hirmer, Lina Metzger

Die stetig wachsende Menge digital verfügbarer Textdaten und Fortschritte in der natürlichen Sprachverarbeitung (NLP) haben Text Mining zu einer Schlüsseltechnologie gemacht. Die "Temi- Box" ist ein modularer Baukasten für das Text Mining, der die automatisierte Textklassifikation, Themenzuordnung und Clusterbildung erleichtert, ohne dass tiefgehende Programmierkenntnisse erforderlich sind. Entwickelt anhand der Verschlagwortung und Themenzuordnung von Publikationen für die IAB-Infoplattform und finanziert durch EU-Mittel, steht sie als Open-Source-Projekt zur Verfügung. Dieser Forschungsbericht dokumentiert die Entwicklung und Anwendung der Temi-Box, veranschaulicht ihre Nutzungsmöglichkeiten und interpretiert die erzielten Ergebnisse. Text Mining extrahiert Wissen aus unstrukturierten Texten durch Methoden wie Klassifikation und Clustering. Die modular aufgebaute Temi-Box macht etablierte Methoden nutzerfreundlich zugänglich und unterstützt Anwenderinnen und Anwender durch eine Pipeline-Architektur, die standardisierte Prozesse wie Datenaufbereitung und Modelltraining vereinfacht. Sie integriert sowohl aktuelle als auch traditionelle Ansätze zur Textrepräsentation, wie BERT und TF-IDF, und bietet eine Vielzahl von Algorithmen zu Textklassifikation und -clustering, darunter K-Nearest Neighbors (KNN), binäre und multinomiale Klassifikatoren als Schichten in neuronalen Netzen sowie K-Means. Verschiedene Evaluationsmetriken ermöglichen es, die Leistung des Modells zu bewerten und unterschiedliche Ansätze miteinander zu vergleichen. [...]

MoreLess

Year of publication:	8. Mai 2025
Authors:	Hirmer, Christine ; Metzger, Lina-Jeanette
Publisher:	Nürnberg : Institut für Arbeitsmarkt- und Berufsforschung der Bundesagentur für Arbeit
Subject:	Python \| Temi-Box \| Text Mining \| BERT-Modell \| Verschlagwortung \| Themenzuordnung \| Publikationen

Extent:	1 Online-Ressource (circa 59 Seiten) Illustrationen
Series:	IAB-Forschungsbericht : aktuelle Ergebnisse aus der Projektarbeit des Instituts für Arbeitsmarkt- und Berufsforschung. - Nürnberg : IAB, ISSN 2195-2655, ZDB-ID 2164523-1. - Vol. 2025, 13
Type of publication:	Book / Working Paper
Type of publication (narrower categories):	Graue Literatur ; Non-commercial literature
Language:	German
Other identifiers:	10.48720/IAB.FB.2313 [DOI] hdl:10419/319491 [Handle]
Source:	ECONIS - Online Catalogue of the ZBW

Persistent link: https://www.econbiz.de/10015404939