Text Mining und Text Data Mining

Was ist Text Mining?

Mit „Text Mining“ oder „Text Data Mining“ werden Prozesse bezeichnet, die mit Hilfe von Software hochwertige Informationen aus Texten und Datenbanken gewinnen.

Forscher nutzen Text Mining zur Extraktion von Aussagen, Fakten und Beziehungen aus Texten, um Muster und Relationen zwischen Aussagen zu identifizieren, die anderweitig schwer zu erkennen sind.Dafür muss eine Sammlung von Zeitschriftenartikeln, ein sogenannter Textkorpus zusammengestellt werden, der mit Hilfe von spezieller Text Mining-Software (bspw. Linguamatics, I2E oder IBM Watson) durchsucht wird.

Text Mining funktioniert anders als eine einfache Suche. Hierbei analysiert eine komplexe Software  Informationen schneller als das menschliche Gehirn und kann dabei Muster identifizieren und Relationen von Aussagen im Text herstellen.

Bei solch eine Relation kann es sich zum Beispiel um ein unerwartetes Muster bei Proteininteraktionen handeln, welches möglicherweise zur Entwicklung eines neuen Medikaments führt. Oder eine kleine Veränderung innerhalb von Wetterphänomenen, welches den Rückgang des Preises von Weizen vorhersagen kann. In vielen Fällen ist dieses Wissen über eine Vielzahl von Informationsquellen verstreut.

question-mark

Was sind die Vorteile von Text Mining?

Mit Text Mining können Forscherteams Artikel sehr detailliert durchsuchen, um geschäftliche Entscheidungen zu unterstützen und Investitionen zu priorisieren.

Wenn Ihre Organisation bisher noch kein Text Mining betreibt, könnten diese drei Gründen Sie dazu bewegen, damit anzufangen:

 

 

1. Steigerung der Effizienz von F&E

Einem Report von 2012 von JISC (Joint Information Systems Comitee) zufolge, werden jährlich 1,5 Mio. wissenschaftliche Artikel veröffentlicht. MEDLINE enthält über 24 Millionen Referenzen von biomedizinischen Zeitschriftenartikeln. Es ist schlicht unmöglich, diese Menge an Informationen per Hand durchzugehen und zu analysieren. Text Mining dagegen ermöglicht Forschern in kürzester Zeit, eine große Masse an Informationen nach einer bestimmten wissenschaftlichen Fragestellung auf der Suche nach Daten, Aussagen und Fakten aus unstrukturierten Textquellen zu analysieren.

 

speedometer

2. Forschung beschleunigen

Anders als Suchmaschinen, die Dokumente oberflächlich nach Stichworten durchsuchen, analysieren Text Mining-Tools Dokumente, um Aussagen zu identifizieren und Beziehungen zwischen Aussagen zu extrahieren. Dabei werden versteckte Informationen freigelegt, die Forscher bei der Entwicklung neuer Hypothesen unterstützen können. Darüber hinaus können sie neue Erkenntnisse gewinnen und das Verständnis für einen Sachverhalt vertiefen.

 

website-redesign

3. Beispiel aus einem Produktionsunternehmen: Arzneimittelsicherheit überwachen

Bei der Arzneimittelentwicklung ist es elementar, bei jedem Entwicklungsschritt potentielle Nebenwirkungen eines Medikamentes zu erkennen und zu verstehen. Ebenso wie Wechselwirkungen mit anderen Arzneimitteln, unsichere Dosierung und Sicherheitsfragen im Bezug auf ein Wirkstoffziel. Text Mining kann Unternehmen bei allen Phasen der Arzneimittelentwicklung unterstützen, spätere Rückschläge zu vermeiden.

*Vgl.: Studie Fraunhofer Institut zu Einsatz und Nutzenpotentialen von Data Mining in Produktionsunternehmen(2014): http://www.ipa.fraunhofer.de/fileadmin/user_upload/Publikationen/Studien/Studientexte/Studie_DataMininginProduktionsunternehmen.pdf

shield-large

Herausforderungen an Text Mining

Neben vielen Vorteilen begegnet man auch einer Reihe von Hindernissen, bevor man entsprechende Text Mining-Abfragen über einen Textkorpus biomedizinischer Literatur laufen lassen kann.

Genannt seien hier drei hauptsächliche Einschränkungen beim Zusammenstellen eines Textkorpus für Mining-Projekte:

 

 

1. Unvollständige Informationen

Oftmals wird ein Textkorpus aus Abtracts von wissenschaftlichen Artikeln zusammengestellt, weil diese über biomedizinische Datenbanken wie PubMed einfach zugänglich sind. Auch wenn Ergebnisse aus Text Mining mit Abstracts einen gewissen Nutzen erbringen können, gibt es doch Limitierungen im Vergleich zu Erkenntnissen, die man aus Text Mining mit Volltexten gewinnen kann.

 

RightFind

2. Begrenzter Zugriff auf XML-formatierte Inhalte

Wenn Forscher Zugriff auf abonnierte Zeitschriften haben, werden die Artikeldokumente meist als PDFs angeboten. Dieses Format eignet sich leider nicht für den Gebrauch mit Mining-Software. PDF-Artikel in XML (Extensible Markup Language) zu konvertieren, das bevorzugte Format von Text-Mining-Software, ist relativ zeitaufwendig.

treaty_icon

3. Uneinheitliche Lizenzbestimmungen und Gebühren

Weil Text-Mining-Projekte vom Zugriff auf ein breites Spektrum von Content abhängen, muss man bei der Verwendung von XML-Volltextartikeln mit einer großen Anzahl von Rechteinhabern (Verlagen und Autoren) zusammenarbeiten. Dies kann zu unterschiedlichen Gebührenstrukturen und uneinheitlichen Nutzungsbedingungen und letztlich zu einer verminderten Produktivität bei den Projekten führen.

 

copyright