Die stetig wachsende Menge digital verfügbarer Textdaten und Fortschritte in der natürlichen Sprachverarbeitung (NLP) haben Text Mining zu einer Schlüsseltechnologie gemacht. Die "Temi- Box" ist ein modularer Baukasten für das Text Mining, der die automatisierte Textklassifikation, Themenzuordnung und Clusterbildung erleichtert, ohne dass tiefgehende Programmierkenntnisse erforderlich sind. Entwickelt anhand der Verschlagwortung und Themenzuordnung von Publikationen für die IAB-Infoplattform und finanziert durch EU-Mittel, steht sie als Open-Source-Projekt zur Verfügung. Dieser Forschungsbericht dokumentiert die Entwicklung und Anwendung der Temi-Box, veranschaulicht ihre Nutzungsmöglichkeiten und interpretiert die erzielten Ergebnisse. Text Mining extrahiert Wissen aus unstrukturierten Texten durch Methoden wie Klassifikation und Clustering. Die modular aufgebaute Temi-Box macht etablierte Methoden nutzerfreundlich zugänglich und unterstützt Anwenderinnen und Anwender durch eine Pipeline-Architektur, die standardisierte Prozesse wie Datenaufbereitung und Modelltraining vereinfacht. Sie integriert sowohl aktuelle als auch traditionelle Ansätze zur Textrepräsentation, wie BERT und TF-IDF, und bietet eine Vielzahl von Algorithmen zu Textklassifikation und -clustering, darunter K-Nearest Neighbors (KNN), binäre und multinomiale Klassifikatoren als Schichten in neuronalen Netzen sowie K-Means. Verschiedene Evaluationsmetriken ermöglichen es, die Leistung des Modells zu bewerten und unterschiedliche Ansätze miteinander zu vergleichen. [...]