Text Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten

(This webpage is about a technical report on Text Mining, written in German. Try Google Translate for an English version.)
Text Mining Bericht Titelseite

Interner Bericht 2006-5, Fakultät für Informatik, Universität Karlsruhe (TH), Germany

Herausgegeben von René Witte und Jutta Mülle

ISSN 1432-7864

200 Seiten, 75 Abbildungen

Inhalt

  1. Thomas Kappler, Einführung in die Computerlinguistik
  2. Tobias Lang, Grundlagen statistischer Sprachverarbeitung
  3. Carsten Siegmund, Einführung in Text Mining
  4. Markus Bestehorn, Part-of-Speech Tagging
  5. Thomas Gitzinger, Berechnung von Koreferenzketten
  6. Johannes Leitner, Extraktion von Ontologien aus natürlichsprachigen Texten
  7. Ralf Krestel, Automatische Textzusammenfassung
  8. Benjamin Heitmann, NewsBlaster: Zusammenfassungen von Nachrichten aus mehreren Quellen
  9. Florian Wild, Extraktion von Argumentationsprofilen aus Zeitungsartikeln

Vorwort

Das noch recht junge Forschungsgebiet Text Mining umfaßt eine Verbindung von Verfahren der Sprachverarbeitung mit Datenbank- und Informationssystemtechnologien. Es entstand aus der Beobachtung, dass ca. 85% aller Datenbankinhalte nur in unstrukturierter Form vorliegen, so dass sich die Techniken des klassischen Data Mining zur Wissensgewinnung nicht anwenden lassen. Beispiele für solche Daten sind Volltextdatenbanken mit Büchern, Unternehmenswebseiten, Archive mit Zeitungsartikeln oder wissenschaftlichen Publikationen, aber auch Ströme kontinuierlich auflaufender Emails oder Meldungen von Nachrichtenagenturen (Newswires).

Im Gegensatz zum Information Retrieval geht es beim Text Mining nicht darum, lediglich Dokumente anhand von Anfragen aufzufinden, sondern aus einem einzelnen oder einem Satz von Dokumenten neues Wissen zu gewinnen, etwa durch automatische Textzusammenfassungen, die Erkennung und Verfolgung benannter Objekte oder die Aufdeckung neuer Trends in Forschung und Industrie. Durch die ständig wachsende Zahl elektronisch verfügbarer Texte werden automatisch arbeitende Verfahren zur Bewältigung der Informationsflut immer dringender, was Text Mining zu einem sehr aktiven und auch kommerziell interessanten Forschungsgebiet macht.

Der vorliegende Bericht enthält eine Auswahl von Themen, die von Studierenden der Universität Karlsruhe im Rahmen eines Hauptseminars am IPD im Wintersemester 2004/2005 erarbeitet wurden. Sie reichen von den Grundlagen der Computerlinguistik über einzelne Algorithmen zur Sprachverarbeitung bis hin zu konkreten Anwendungen im Text Mining. Zahlreiche Literaturreferenzen zu jedem Kapitel sollen dem Leser eine weitergehende Studie der einzelnen Themen ermöglichen.

Referenz

Der Bericht kann hier heruntergeladen werden:

MD5 Prüfsumme: da5658518677ac101538fcb12533d283

Der Bericht kann folgendermaßen zitiert werden (BibTeX-Datei):

@Proceedings{tmrep,
  title = 	 {{Text Mining: Wissensgewinnung aus nat\"{u}rlichsprachigen Dokumenten}},
  year = 	 {2006},
  editor =	 {Ren\'{e} Witte and Jutta M\"{u}lle},
  series =	 {Interner Bericht 2006-5},
  organization = {Universit\"{a}t Karlsruhe, Fakult\"{a}t f\"{u}r Informatik, 
                  Institut f\"{u}r Programmstrukturen und Datenorganisation (IPD)},
  note =	 {ISSN 1432-7864, 
                  URL: \url{http://digbib.ubka.uni-karlsruhe.de/volltexte/1000005161}}
}

René Witte und Jutta Mülle (Herausgeber). 2006. Text Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten, Interner Bericht 2006-5, Universität Karlsruhe, Fakultät für Informatik, Institut für Programmstrukturen und Datenorganisation (IPD), ISSN 1432-7864, URL: http://digbib.ubka.uni-karlsruhe.de/volltexte/1000005161