Doctoral thesis

Extending knowledge graph embeddings for data imputation

SPR

  • Fribourg, Switzerland : [éditeur non identifié], 2021

1 ressource en ligne (118 pages) ; 1 fichier pdf

Thèse: Université de Fribourg (Suisse), 2021

English French With the advancement of Big Data and Natural Language Processing (NLP) technologies, extensive research into Knowledge Graphs (KGs) has been conducted. In a typical KG, such as Wikidata, entities are connected via relations. A popular approach to represent facts in KGs is to define them as triplets (head, r elat ion, tai l ). For example, the fact Bern, capital Of, Switzerland, is composed of two entities, Bern and Switzerland, connected by the relation capitalOf. Although KGs are effective in representing structured data, they cannot be used to train modern Machine Learning models which often require numerical input. To tackle this issue, Knowledge Graph embeddings have been proposed. In our context, KG embeddings aim to project entities and relations from a KG into a low-dimensional and continuous vector space. The main benefit of such a representation is that the resulting vectors can be subsequently used as input to Machine Learning pipelines. In this thesis, we first introduce popular Knowledge Graphs, as well as typical KG embedding models. After providing an overview of the applications and problems that can be tackled with KG embeddings, we
present our own contributions to this research field. Specifically, we first propose a novel approach, called JOINER, to jointly learn KG embeddings from text and a Knowledge Graph by taking advantage of both large-scale unstructured content (text) and high-quality structured data (the Knowledge Graph). JOINER not only preserves co-occurrences between words in a text corpus and relations between entities in a Knowledge Graph, it also provides the flexibility to control the amount of information shared between the two data sources via regularization. We conduct a thorough evaluation of JOINER on three evaluation tasks (analogical reasoning, link prediction and relation extraction) using three different corpora, showing significant
improvement on most tasks. Next, we present a new KG embeddings model, called HINGE, able to learn hyper-relational facts from KGs, which are facts containing not only a base triplet (head, r elat ion, tai l ) but also associated key-value pairs. HINGE captures not only the primary structural information of the KG encoded in the triplets, but also the correlation between each triplet and its associated key-value pairs. Our extensive evaluation shows the superiority of HINGE on various link prediction tasks over KGs, outperforming not only the KG embedding methods learning from triplets only (by 0.81-41.45%), but also the methods learning from hyper-relational facts using an n-ary representation (by 13.2-84.1%). Additionally, we propose an end-to-end solution called RETA in order to tackle instance completion problems by suggesting relation-tail pairs given a head entity. RETA consists of two components: RETA-Filter and RETA-Grader. More precisely, RETA-Filter first generates a filtered list of candidates by extracting and leveraging the schema of a KG; RETA-Grader then evaluates and ranks the candidate pairs considering the plausibility of both the candidate triplet and its corresponding schema using a newly-designed KG embedding model. We evaluate our methods against a sizable collection of state-of-the-art techniques on three real-world KG datasets. Results show that our RETA-Filter generates of high-quality candidate r -t pairs, outperforming the best baseline techniques while reducing by 10.61%-84.75% the candidate pool size under the same candidate quality guarantees. Moreover, our RETA-Grader also significantly outperforms state-of-the-art link prediction techniques on the instance completion task by 16.25%-65.92% across different datasets. Finally, we address research questions raised in this thesis related to a number of Knowledge Graph embedding methods presented in the next sections. Additionally, we summarize the series of contributions we made in some of the core tasks tackled by
Knowledge Graph embedding methods and conclude our thesis by discussing how to extend our proposed works.
Avec l’avancement des technologies de Big Data et de traitement du langage naturel (NLP), des recherches approfondies sur les graphes de connaissances (ou Knowledge Graphs KGs) ont été menées. Dans un KG typique, tel que Wikidata, les entités sont reliées par des relations. Une approche populaire pour représenter les faits dans les KGs consiste à les définir comme des triplets (head, r elat ion, tai l ). Par exemple, le fait Bern, capitalOf, Switzerland, est composé de deux entités, Bern et Switzerland, reliées par la relation capitalOf. Bien que les graphes de connaissances soient efficaces pour représenter des données structurées, ils ne peuvent pas être utilisés pour former des modèles modernes d’apprentissage automatique qui nécessitent souvent des données numériques. Pour résoudre ce problème, des incorporations (ou embeddings) de graphes de connaissances ont été proposées. Dans notre contexte, les
incorporations de KG visent à projeter les entités et les relations d’un KG dans un espace vectoriel continu et de faible dimension. Le principal avantage d’une telle représentation est que les vecteurs résultants peuvent être utilisés ultérieurement comme entrée dans des pipelines d’apprentissage automatique. Dans cette thèse, nous présentons d’abord les graphes de connaissances les plus populaires, ainsi que les modèles typiques d’intégration de KG. Après avoir donné une vue d’ensemble des applications et des problèmes qui peuvent être abordés avec les encastrements de KG, nous présentons nos propres contributions à ce domaine de recherche. Plus précisément, nous proposons d’abord une nouvelle approche, appelée JOINER,
pour apprendre conjointement les encastrements de KG à partir d’un texte et d’un graphe de connaissances en tirant parti à la fois du contenu non structuré à grande échelle (le texte) et des données structurées de haute qualité (le graphe de connaissances). JOINER préserve non seulement les cooccurrences entre les mots d’un corpus textuel et les relations entre les entités d’un graphe de connaissances, mais il offre également la possibilité de contrôler la quantité d’informations partagées entre les deux sources de données par le biais de la régularisation. Nous effectuons une évaluation approfondie de JOINER sur trois tâches d’évaluation (raisonnement analogique, prédiction de liens et extraction de relations) en utilisant trois corpus différents, montrant une amélioration significative pour la plupart des tâches.
Ensuite, nous présentons un nouveau modèle d’intégration de KG, appelé HINGE, capable d’apprendre des faits hyper-relationnels à partir de KGs, qui sont des faits contenant non seulement un triplet de base (head, r elat ion, tai l ) mais aussi des paires clé-valeur associées. HINGE capture non seulement l’information structurelle primaire du KG encodée dans les triplets, mais aussi la corrélation entre chaque triplet et ses paires clé-valeur associées. Notre évaluation approfondie montre la supériorité de HINGE sur diverses tâches de prédiction de liens sur les KGs, surpassant non seulement les méthodes d’intégration de KG apprenant uniquement à partir de triplets (de 0,81 à 41,45%), mais aussi les méthodes apprenant à partir de faits hyperrelationnels utilisant une représentation n-aire (de 13,2 à 84,1%). De plus, nous proposons une solution de bout en bout appelée RETA afin de résoudre les problèmes de complétion d’instances en suggérant des paires relation-queue pour une entité de tête. RETA se compose de deux éléments : RETA-Filter et RETA-Grader. Plus précisément, RETA-Filter génère d’abord une liste filtrée de candidats en extrayant et en exploitant le schéma d’une KG; RETA-Grader évalue et classe ensuite les paires de candidats en tenant compte de la plausibilité du triplet candidat et de son schéma correspondant à l’aide d’un nouveau modèle d’intégration de KG. Nous évaluons nos méthodes par rapport à un ensemble important de techniques de pointe sur trois ensembles de données de KGs réels. Les résultats montrent que notre RETA-Filter génère des paires r -t de haute qualité, surpassant les meilleures techniques de base tout en réduisant de 10,61% à 84,75% la taille du pool de candidats avec les mêmes garanties de qualité. De plus, notre RETA-Grader surpasse également de manière significative les techniques de prédiction de liens de l’état de l’art pour des tâches de complétion d’instances de 16,25% à 65,92% suivant les jeux de données utilisés. Enfin, nous abordons les questions de recherche soulevées dans cette thèse en relation avec les méthodes d’intégration des graphes de connaissances présentées dans les sections suivantes. En outre, nous résumons la série de contributions que nous avons faites concernant les diverses tâches abordées et concluons cette thèse en discutant de la manière d’étendre les travaux proposés.
Faculty
Faculté des sciences et de médecine
Language
  • English
Classification
Computer science
Notes
  • Ressource en ligne consultée le 2022-02-02
License
License undefined
Open access status
gold
Identifiers
Persistent URL
https://folia.unifr.ch/unifr/documents/312984
Statistics

Document views: 34 File downloads:
  • RossoP.pdf: 10