Für Studierende
Fraunhofer-Institut für Arbeitswirtschaft und Organisation
Aufbereitung eines Korpus zur Evaluation von Named Entity Recognition-Verfahren
Allgemeine Informationen
| Fachrichtungen: | Softwaretechnik, Informatik, Computerlinguistik |
| Beginn: | Ab sofort |
Hintergrund und Problem-Domäne
Am Competence Center Electronic Business werden durch Fraunhofer IAO im Rahmen des The-seus -Anwendungsfalles TEXO Methoden und Werkzeuge zur Akquisition und zielgerichteten Verarbeitung von Informationen aus Web-Dokumenten für professionelle Anwender entwickelt und erprobt. Das Anwendungsgebiet umfasst dabei neben dem strategischen Innovationsmanagement auch verwandte Disziplinen wie Wettbewerbsbeobachtung und Onli-ne-Reputationsmanagement.
Eigennamen („Named Entities“) stellen bei der Analyse von Web-Dokumenten eine besonders wichtige Wortklasse dar: So können mittels Personen- oder Firmennamenerkennung Beziehungsnetzwerke identifiziert werden. Insbesondere das Wissen über Organisationbeziehungsnetzwerke kann für Unternehmen eine hohe strategische Relevanz haben, Anwendungsfälle sind z.B.:
- Erkennung von Forschungsgemeinschaften, und damit Identifikation relevanter Anlaufstellen für F&E-Vorhaben;
- Frühzeitige Erkennung von sich anbahnenden Unternehmenspartnerschaften oder –übernahmen im Rahmen der Wettbewerbsbeobachtung;
- Identifikation von (stark vernetzten) Meinungsführern in Online-Quellen im Rahmen des Reputationsmanagement.
Für die automatische Erkennung von Organisationsnamen existieren verschiedene Verfahren und Werkzeuge. Ein objektiver Vergleich bestehender Verfahren erfolgt üblicherweise anhand der Kennzahlen „Precision“ (Verhältnis der korrekt erkannten Organisationsnamen zu allen erkannten Organisationsnamen) und „Recall“ (Verhältnis der korrekt erkannten Organisationsnamen zur Gesamtmenge der im Testkorpus enthalten Organisationsnamen. Vorraussetzung für die Berechnung dieser Werte ist ein korrekt annotierter Dokumentenkorpus, also eine Menge von Texten, in denen die enthaltenen Organisationsnamen manuell korrekt gekennzeichnet sind.
Aufgabenstellung
In der Arbeit sollen die folgenden Aufgabenschritte durchgeführt werden:
- Erstellung einer geeigneten Textmenge (IAO hat bereits jede Menge Texte gesammelt)
- Festlegung eines Annotationsstandards, zuvor Recherche bestehender Standards.
- Erarbeitung eines geeigneten Annotationsverfahrens in Zusammenarbeit mit dem Betreuer
- Durchführung der Annotation
Wir bieten:
- Interessante Themenstellung
- Interessantes Projektumfeld
- Moderne Hard- und Softwareausstattung
- Nette und motivierte Teamkollegen
Wir erwarten:
- Fähigkeit zur selbständigen und strukturierten Durchführung von Arbeiten
- Kenntnis und Interesse an Internet-Technologien und Text-Mining
- Gute Kenntnisse der deutschen Sprache
Literaturhinweise
[1]
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, Cambridge University Press, Cambridge, England, 2007 (Preliminary draft)
[2]
Baeza-Yates, Ricardo und Ribeiro-Neto, Berthier (1999), Modern Information Retrieval, Ad-dison-Wesley Longman Publishing Co., Boston, MA, USA.
[3]
Dirk Lewandowski: Web Information Retrieval – Technologien zur Informationssuche im Internet, Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V., Frankfurt am Main, 2005
[4]
S. Beucker, S., C. Lang-Koetz und S. Springer: Strukturierung der verfügbaren Online-Unterstützung für das Innovationsmanagement, 2006. http://www.nova-net.de/fhg/Images/Beucker_Online-Unterstuetzung_InnoMgnt_2006_(nova-net_3-8167-7048-7)_www_tcm231-54861.pdf
[5]
Lukas Gotter, Text Mining - Wissensgewinnung aus Texten, http://wissensexploration.de/textmining.php (2007)
[6]
Jan Finzen; Maximilien Kintz and Holger Kett und Steffen Koch (2009): Strategic Innovation Management on the Basis of Searching and Mining Press Releases. In: Joaquim Filipe; José Cordeiro (Hg.): WEBIST 2009 - Proceedings of the Fifth International Conference on Web Information Systems and Technologies, Lisbon, Portugal, March 23-26, 2009: INSTICC Press, S. 347–353.
[7]
Joel Nothman (2008): Learning Named Entity Recognition from Wikipedia. Bachelor Thesis (Honours), Online abrufbar unter http://joelnothman.com/downloads/honsthesis.pdf
[8]
L. Ratinov und D. Roth (2009): Design Challenges and Misconceptions in Named Entity Rec-ognition. Proc. of the Annual Conference on Computational Natural Language Learning (CoNLL)

Lesezeichen setzen bei