Für Studierende

Fraunhofer-Institut für Arbeitswirtschaft und Organisation

Marktanalyse / Erprobung / Entwicklung von Werkzeugen zur Named Entity Recognition

Allgemeine Informationen

Fachrichtungen:Softwaretechnik, Informatik, Computerlinguistik
Beginn:Ab sofort

Hintergrund und Problem-Domäne

Am Competence Center Electronic Business werden durch Fraunhofer IAO im Rahmen des The-seus -Anwendungsfalles TEXO  Methoden und Werkzeuge zur Akquisition und zielgerichteten Verarbeitung von Informationen aus Web-Dokumenten für professionelle Anwender entwickelt und erprobt. Das Anwendungsgebiet umfasst dabei neben dem strategischen Innovationsmanagement auch verwandte Disziplinen wie Wettbewerbsbeobachtung und Onli-ne-Reputationsmanagement.

Eigennamen („Named Entities“) stellen bei der Analyse von Web-Dokumenten eine besonders wichtige Wortklasse dar: So können mittels Personen- oder Firmennamenerkennung Beziehungsnetzwerke identifiziert werden. Insbesondere das Wissen über Organisationbeziehungsnetzwerke kann für Unternehmen eine hohe strategische Relevanz haben, Anwendungsfälle sind z.B.: 

  • Erkennung von Forschungsgemeinschaften, und damit Identifikation relevanter Anlaufstellen für F&E-Vorhaben;
  • Frühzeitige Erkennung von sich anbahnenden Unternehmenspartnerschaften oder –übernahmen im Rahmen der Wettbewerbsbeobachtung;
  • Identifikation von (stark vernetzten) Meinungsführern in Online-Quellen im Rahmen des Reputationsmanagement.

Die korrekte Identifikation von Eigennamen („Named Entity Recognition“, NER) ist ein an-spruchsvolles Forschungsgebiet, die Verfahren reichen von einfachen Heuristiken („Großgeschriebene Mehrwortausdrücke, die mit „GmbH“ enden) und Referenzlisten („Hoppenstedt-Datenbank“) bis zu Sprachunabhängigen selbstlernenden Verfahren.

Aufgabenstellung

In der Arbeit sollen die folgenden Aufgabenschritte durchgeführt werden: 

Stufe 1: Beschreibung verschiedener Verfahren der NER unter besonderer Berücksichtigung der Identifikation von Firmennamen (Studienarbeit).

  • Vorraussetzung hierfür ist eine theoretische Einarbeitung in das Thema. 
  • Dies ist verbunden mit einer entsprechenden wissenschaftlichen Literaturrecherche.
  • Die Vor- und Nachteile der verschiedenen Verfahren sollen anhand bestimmter Beispiele aufgezeigt werden.
  • Hierzu werden zu Beginn der Arbeit mit dem Betreuer geeignete Anwendungsfälle identifiziert und festgelegt.

Stufe 2: Vergleich verschiedener verfügbarer Werkzeuge zur NER unter besonderer Berücksichtigung der Identifikation von Firmennamen (Studien- oder Diplomarbeit).

  • Hierzu sind zunächst geeignete Werkzeuge zu identifizieren (Web- und Literaturrecherche). 
  • Ggf. wird die Menge der zu untersuchenden Werkzeuge anhand bestimmter Kriterien eingegrenzt (z.B. „freie Verwendbarkeit“ oder „Eignung für deutsche Texte“).
  • Die Werkzeuge sollen anhand bestimmter Beispiele ausprobiert werden, die Ergebnisse werden dokumentiert und kritisch diskutiert.
  • Entsprechende Anwendungsbeispiele werden wiederum zu Beginn der Arbeit gemeinsam mit dem Betreuer identifiziert und festgelegt.

Stufe 3: Entwurf und Implementierung eines NER-Services für die Identifikation von Firmennamen (Diplomarbeit).

  • Bei der Entwicklung soll soweit wie möglich auf verfügbare Komponenten zu-rückgegriffen werden. Es soll also weniger ein komplettes NER-System neu gebaut, als vielmehr ein bestehendes für einen konkreten Anwendungsfall ausgebaut werden.
  • Die Spezifikation und Beschreibung dieses Anwendungsfalls erfolgt zu Beginn der Arbeit gemeinsam mit dem Betreuer.
  • Dieser Service soll über klar definierte Schnittstellen in eine bestehende Webmi-ning-Software (IAO-Eigenentwicklung) einbindbar sein (z.B. als Webservice oder UIMA-Modul)
  • Anschließend soll die Tauglichkeit des Services für den Anwendungsfall evaluiert und kritisch diskutiert werden.

Wir bieten:

  • Interessante Themenstellung
  • Interessantes Projektumfeld
  • Moderne Hard- und Softwareausstattung
  • Nette und motivierte Teamkollegen

Wir erwarten:

  • Fähigkeit zur selbständigen und strukturierten Durchführung von Arbeiten
  • Kenntnis und Interesse an Internet-Technologien und Text-Mining
  • Gute Kenntnisse der deutschen Sprache

Literaturhinweise

[1]
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, Cambridge University Press, Cambridge, England, 2007 (Preliminary draft)
[2]
Baeza-Yates, Ricardo und Ribeiro-Neto, Berthier (1999), Modern Information Retrieval, Ad-dison-Wesley Longman Publishing Co., Boston, MA, USA.
[3]
Dirk Lewandowski: Web Information Retrieval – Technologien zur Informationssuche im Internet, Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V., Frankfurt am Main, 2005
[4]
S. Beucker, S., C. Lang-Koetz und S. Springer: Strukturierung der verfügbaren Online-Unterstützung für das Innovationsmanagement, 2006. http://www.nova-net.de/fhg/Images/Beucker_Online-Unterstuetzung_InnoMgnt_2006_(nova-net_3-8167-7048-7)_www_tcm231-54861.pdf
[5]
Lukas Gotter, Text Mining - Wissensgewinnung aus Texten, http://wissensexploration.de/textmining.php (2007) 
[6] 
Jan Finzen; Maximilien Kintz and Holger Kett und Steffen Koch (2009): Strategic Innovation Management on the Basis of Searching and Mining Press Releases. In: Joaquim Filipe; José Cordeiro (Hg.): WEBIST 2009 - Proceedings of the Fifth International Conference on Web Information Systems and Technologies, Lisbon, Portugal, March 23-26, 2009: INSTICC Press, S. 347–353.
[7]
Joel Nothman (2008): Learning Named Entity Recognition from Wikipedia. Bachelor Thesis (Honours), Online abrufbar unter http://joelnothman.com/downloads/honsthesis.pdf
[8]
L. Ratinov und D. Roth (2009): Design Challenges and Misconceptions in Named Entity Rec-ognition. Proc. of the Annual Conference on Computational Natural Language Learning (CoNLL)