Für Studierende
Fraunhofer-Institut für Arbeitswirtschaft und Organisation
Marktanalyse / Erprobung / Entwicklung von Werkzeugen zur Named Entity Recognition
Allgemeine Informationen
| Fachrichtungen: | Softwaretechnik, Informatik, Computerlinguistik |
| Beginn: | Ab sofort |
Hintergrund und Problem-Domäne
Am Competence Center Electronic Business werden durch Fraunhofer IAO im Rahmen des The-seus -Anwendungsfalles TEXO Methoden und Werkzeuge zur Akquisition und zielgerichteten Verarbeitung von Informationen aus Web-Dokumenten für professionelle Anwender entwickelt und erprobt. Das Anwendungsgebiet umfasst dabei neben dem strategischen Innovationsmanagement auch verwandte Disziplinen wie Wettbewerbsbeobachtung und Onli-ne-Reputationsmanagement.
Eigennamen („Named Entities“) stellen bei der Analyse von Web-Dokumenten eine besonders wichtige Wortklasse dar: So können mittels Personen- oder Firmennamenerkennung Beziehungsnetzwerke identifiziert werden. Insbesondere das Wissen über Organisationbeziehungsnetzwerke kann für Unternehmen eine hohe strategische Relevanz haben, Anwendungsfälle sind z.B.:
- Erkennung von Forschungsgemeinschaften, und damit Identifikation relevanter Anlaufstellen für F&E-Vorhaben;
- Frühzeitige Erkennung von sich anbahnenden Unternehmenspartnerschaften oder –übernahmen im Rahmen der Wettbewerbsbeobachtung;
- Identifikation von (stark vernetzten) Meinungsführern in Online-Quellen im Rahmen des Reputationsmanagement.
Die korrekte Identifikation von Eigennamen („Named Entity Recognition“, NER) ist ein an-spruchsvolles Forschungsgebiet, die Verfahren reichen von einfachen Heuristiken („Großgeschriebene Mehrwortausdrücke, die mit „GmbH“ enden) und Referenzlisten („Hoppenstedt-Datenbank“) bis zu Sprachunabhängigen selbstlernenden Verfahren.
Aufgabenstellung
In der Arbeit sollen die folgenden Aufgabenschritte durchgeführt werden:
Stufe 1: Beschreibung verschiedener Verfahren der NER unter besonderer Berücksichtigung der Identifikation von Firmennamen (Studienarbeit).
- Vorraussetzung hierfür ist eine theoretische Einarbeitung in das Thema.
- Dies ist verbunden mit einer entsprechenden wissenschaftlichen Literaturrecherche.
- Die Vor- und Nachteile der verschiedenen Verfahren sollen anhand bestimmter Beispiele aufgezeigt werden.
- Hierzu werden zu Beginn der Arbeit mit dem Betreuer geeignete Anwendungsfälle identifiziert und festgelegt.
Stufe 2: Vergleich verschiedener verfügbarer Werkzeuge zur NER unter besonderer Berücksichtigung der Identifikation von Firmennamen (Studien- oder Diplomarbeit).
- Hierzu sind zunächst geeignete Werkzeuge zu identifizieren (Web- und Literaturrecherche).
- Ggf. wird die Menge der zu untersuchenden Werkzeuge anhand bestimmter Kriterien eingegrenzt (z.B. „freie Verwendbarkeit“ oder „Eignung für deutsche Texte“).
- Die Werkzeuge sollen anhand bestimmter Beispiele ausprobiert werden, die Ergebnisse werden dokumentiert und kritisch diskutiert.
- Entsprechende Anwendungsbeispiele werden wiederum zu Beginn der Arbeit gemeinsam mit dem Betreuer identifiziert und festgelegt.
Stufe 3: Entwurf und Implementierung eines NER-Services für die Identifikation von Firmennamen (Diplomarbeit).
- Bei der Entwicklung soll soweit wie möglich auf verfügbare Komponenten zu-rückgegriffen werden. Es soll also weniger ein komplettes NER-System neu gebaut, als vielmehr ein bestehendes für einen konkreten Anwendungsfall ausgebaut werden.
- Die Spezifikation und Beschreibung dieses Anwendungsfalls erfolgt zu Beginn der Arbeit gemeinsam mit dem Betreuer.
- Dieser Service soll über klar definierte Schnittstellen in eine bestehende Webmi-ning-Software (IAO-Eigenentwicklung) einbindbar sein (z.B. als Webservice oder UIMA-Modul)
- Anschließend soll die Tauglichkeit des Services für den Anwendungsfall evaluiert und kritisch diskutiert werden.
Wir bieten:
- Interessante Themenstellung
- Interessantes Projektumfeld
- Moderne Hard- und Softwareausstattung
- Nette und motivierte Teamkollegen
Wir erwarten:
- Fähigkeit zur selbständigen und strukturierten Durchführung von Arbeiten
- Kenntnis und Interesse an Internet-Technologien und Text-Mining
- Gute Kenntnisse der deutschen Sprache
Literaturhinweise
[1]
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, Cambridge University Press, Cambridge, England, 2007 (Preliminary draft)
[2]
Baeza-Yates, Ricardo und Ribeiro-Neto, Berthier (1999), Modern Information Retrieval, Ad-dison-Wesley Longman Publishing Co., Boston, MA, USA.
[3]
Dirk Lewandowski: Web Information Retrieval – Technologien zur Informationssuche im Internet, Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V., Frankfurt am Main, 2005
[4]
S. Beucker, S., C. Lang-Koetz und S. Springer: Strukturierung der verfügbaren Online-Unterstützung für das Innovationsmanagement, 2006. http://www.nova-net.de/fhg/Images/Beucker_Online-Unterstuetzung_InnoMgnt_2006_(nova-net_3-8167-7048-7)_www_tcm231-54861.pdf
[5]
Lukas Gotter, Text Mining - Wissensgewinnung aus Texten, http://wissensexploration.de/textmining.php (2007)
[6]
Jan Finzen; Maximilien Kintz and Holger Kett und Steffen Koch (2009): Strategic Innovation Management on the Basis of Searching and Mining Press Releases. In: Joaquim Filipe; José Cordeiro (Hg.): WEBIST 2009 - Proceedings of the Fifth International Conference on Web Information Systems and Technologies, Lisbon, Portugal, March 23-26, 2009: INSTICC Press, S. 347–353.
[7]
Joel Nothman (2008): Learning Named Entity Recognition from Wikipedia. Bachelor Thesis (Honours), Online abrufbar unter http://joelnothman.com/downloads/honsthesis.pdf
[8]
L. Ratinov und D. Roth (2009): Design Challenges and Misconceptions in Named Entity Rec-ognition. Proc. of the Annual Conference on Computational Natural Language Learning (CoNLL)

Lesezeichen setzen bei