Doctoral thesis

Neural Machine Reading for Domain-Specific Text Resources

    2020

1 ressource en ligne (145 pages)

Thèse de doctorat: Université de Fribourg, 2020

English German The vision of Machine Reading is to automatically understand written text and transform the contained information into machine-readable representations. This thesis approaches this challenge in particular in the context of commercial organizations. Here, an abundance of domain-specific knowledge is frequently stored in unstructured text resources. Existing methods often fail in this scenario, because they cannot handle heterogeneous document structure, idiosyncratic language, spelling variations and noise. Specialized methods can hardly overcome these issues and often suffer from recall loss. Moreover, they are expensive to develop and often require large amounts of task-specific labeled training examples. Our goal is to support the human information-seeking process with generalized language understanding methods. These methods need to eliminate expensive adaptation steps and must provide high error tolerance. Our central research question focuses on capturing domainspecific information from multiple levels of abstraction, such as named entities, latent topics, long-range discourse trajectory and document structure. We address this problem in three central information-seeking tasks: Named Entity Linking, Topic Modeling and Answer Passage Retrieval. We propose a collection of Neural Machine Reading models for these tasks. Our models are based on the paradigm of artificial neural networks and utilize deep recurrent architectures and end-to-end sequence learning methods. We show that automatic language understanding requires a contextualized document representation that embeds the semantics and skeletal structure of a text. We further identify key components that allow for robust word representations and efficient learning from sparse data. We conduct large-scale experiments in English and German language to show that Neural Machine Reading can adapt with high accuracy to various vertical domains, such as geopolitics, automotive, clinical healthcare and biomedicine. This thesis is the first comprehensive research approach to extend distributed language models with complementary structure information from long-range document discourse. It closes the gap between symbolic Information Extraction and Information Retrieval by transforming both problems into continuous vector space representations and solving them jointly using probabilistic methods. Our models can fulfill task-specific information needs on large domain-specific text resources with low latency. This opens up possibilities for interactive applications to further evolve Machine Reading with human feedback. Machine Reading ist die Vision, Text automatisiert zu verstehen und in maschinenlesbare Form zu überführen. Die vorliegende Dissertation nimmt sich dieses Problems an und legt dabei besonderes Augenmerk auf die Anwendung in Unternehmen. Hier wird häufig eine große Fülle domänenspezifischen Wissens in Form von unstrukturierten Textdaten vorgehalten. Existierende Methoden der Informationsextraktion weisen in diesem Szenario erhebliche Mängel auf. Häufige Fehlerquellen sind heterogene Dokumente, eigentümliche Sprache, abweichende Schreibweisen und verrauschte Daten. Selbst spezialisierte Methoden können diese Herausforderungen nur mit eingeschränkter Trefferquote bewältigen. Zusätzlich sind sie kostspielig in der Entwicklung und benötigen oft große Mengen an annotierten Trainingsdaten. Unser Ziel ist es, den Anwender im Prozess der Informationssuche mit maschinellen Sprachverständismethoden zu unterstützen. Diese Methoden sollen kostenintensive Anpassungsschritte vermeiden und müssen eine hohe Fehlertoleranz aufweisen. Unsere zentrale Forschungsfrage richtet sich darauf, domänenspezifische Information auf mehreren Abstraktionsebenen zu erfassen. Dies umfasst u.a. die Identifikation von Objekten, latenten Themenverteilungen, Diskursverläufen und Dokumentenstruktur. Im Fokus stehen dabei drei zentrale Prozessschritte der Informationssuche: Named Entity Linking, Topic Modeling und Answer Passage Retrieval. Die vorliegende Arbeit stellt für diese Zwecke eine Sammlung neuronaler Machine Reading Modelle vor. Auf der Grundlage von künstlichen neuronalen Netzen werden hierfür insbesondere Verfahren des tiefen und sequenzbasierten Lernens genutzt. Das zentrale Ergebnis dieser Arbeit ist eine kontextualisierte Dokumentenrepräsentation für automatisiertes Sprachverständnis, welche in verdichteter Form die Semantik und Grundstruktur eines Textes umfasst. Darüber hinaus werden grundlegende Komponenten vorgestellt, die robuste Wortrepräsentation und effizientes Lernen aus spärlichen Daten ermöglichen. Umfassende Experimente in englischer und deutscher Sprache belegen, dass neuronales Machine Reading mit hoher Präzision auf eine Vielzahl vertikaler Domänen anwendbar ist, wie z.B. Geopolitik, Autoindustrie, Gesundheitswesen und Biomedizin. Diese Dissertation ist der erste umfassende Forschungsansatz, neuronale Sprachmodelle mit komplementären Strukturelementen auf Dokumentenebene anzureichern. Dieser Ansatz schließt die Lücke zwischen symbolischer Informationsextraktion und Informationssuche, indem beide Probleme in kontinuierliche Vektorraumrepräsentationen übersetzt und durchgängig probabilistisch gelöst werden. So können unternehmensspezifische Informationsbedürfnisse mit schnellen Antwortzeiten erfüllt werden. Dies ermöglicht interaktive Anwendungen, die Machine Reading zukünftig mit Hilfe von menschlichem Feedback verbessern können.
Faculty
Faculté des sciences et de médecine
Language
  • English
Classification
Computer science and technology
Notes
  • Ressource en ligne consultée le 14.12.2020
License
License undefined
Identifiers
Persistent URL
https://folia.unifr.ch/unifr/documents/309067
Statistics

Document views: 139 File downloads:
  • ArnoldS.pdf: 243