Automatyczne wykrywanie nominalnych zależności referencyjnych w polskich tekstach współczesnych

1 opinia

Format:

ibuk

Książka powstała w wyniku badań lingwistyczno-informatycznych nad automatycznym dekodowaniem relacji referencyjnych w tekstach polskich.


Autor przedstawia propozycję taksonomii relacji tego rodzaju i wykorzystuje ją w procesie budowy reprezentatywnego, ręcznie anotowanego korpusu zależności referencyjnych, który powstał na bazie tekstów Narodowego Korpusu Języka Polskiego. Dane korpusu używane są do wytrenowania kilku systemów do wykrywania wzmianek i koreferencji reprezentujących różne metodologie algorytmiczne – regułową, statystyczną, algorytm sita, głębokie sieci neuronowe – oraz integrujących bogate zasoby lingwistyczne i z zakresu wiedzy ogólnej: rozszerzenia formalnej gramatyki języka polskiego, dane słownika walencyjnego czy bazę wyrażeń omownych.


Przetestowanych zostaje kilkaset cech wzmianek do wykrywania koreferencji oraz kilka konfiguracji sieci neuronowej. Powstaje także prototypowa konfiguracja metody wykrywania relacji agregacyjnych, kompozycyjnych i predykatywnych. Formalna ewaluacja powstałych systemów wykazuje wyniki porównywalne z systemami tego typu dla innych języków.


The book features the findings of computational linguistics research on the automatic decoding of referential relations in Polish texts. The author presents a specific definition of coreference, constructs a representative corpus of coreference using texts from the National Corpus of Polish, implements systems for detecting mentions and coreferences, and evaluates them, achieving results comparable with systems of this kind for other languages.


Liczba stron192
WydawcaUniwersytet Warszawski
ISBN-13978-83-235-3630-7
Numer wydania1
Język publikacjipolski
Informacja o sprzedawcyRavelo Sp. z o.o.

INNE EBOOKI AUTORA

Ciekawe propozycje

Spis treści

  Przedmowa    13
  Informacja o finansowaniu prac    15
  Podziękowania    17
  1. Założenia badawcze    19
  1.1. Referencja, koreferencja, anafora, asocjacja . . . . . . . . . . . . . . .    19
  1.2. Motywacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    21
  1.3. Cele badawcze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    22
  1.4. Zakres bada´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    23
  1.5. Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    24
  2. Od ujęcie teoretycznych do dekodowania relacji referencyjnych    27
  2.1. Pojęcie i zakres referencji . . . . . . . . . . . . . . . . . . . . . . . . . .    27
  2.2. Klasyfikacje typów wzmianek i relacji referencyjnych . . . . . . . . .    29
  2.2.1. Klemensiewicz . . . . . . . . . . . . . . . . . . . . . . . . . . . .    30
  2.2.2. Topolińska . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    31
  2.2.3. Paduczewa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    32
  2.2.4. Clark i inne klasyfikacje zagraniczne . . . . . . . . . . . . . . .    33
  2.3. Cechy relacji referencyjnych . . . . . . . . . . . . . . . . . . . . . . . .    35
  2.4. Projekty korpusowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    38
  2.5. Komputerowe implementacje modelu referencji . . . . . . . . . . . .    41
  2.6. Metody ewaluacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    48
  2.6.1. Miara MUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    50
  2.6.2. Miara B3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    51
  2.6.3. Miara CEAF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    52
  2.6.4. Miara BLANC . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    53
  3. Model relacji referencyjnych    55
  3.1. Świat tekstu i własność referencji . . . . . . . . . . . . . . . . . . . . .    55
  3.2. Typy i granice wzmianek . . . . . . . . . . . . . . . . . . . . . . . . . . .    56
  3.3. Relacje tekstowe i pozatekstowe . . . . . . . . . . . . . . . . . . . . . .    58
  3.4. Typologia referencyjna . . . . . . . . . . . . . . . . . . . . . . . . . . . .    59
  3.4.1. Koreferencja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    61
  3.4.2. Referencja pośrednia . . . . . . . . . . . . . . . . . . . . . . . .    61
  3.4.3. Relacje wspierające . . . . . . . . . . . . . . . . . . . . . . . . .    63
  3.4.4. Relacje wykluczające . . . . . . . . . . . . . . . . . . . . . . . .    63
  3.4.5. Aspekty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    64
  4. Korpus zależności referencyjnych    67
  4.1. Wybór tekstów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    67
  4.2. Wybór strategii anotacyjnej . . . . . . . . . . . . . . . . . . . . . . . . .    69
  4.2.1. Liczba i profil anotatorów . . . . . . . . . . . . . . . . . . . . .    69
  4.2.2. Anotacja szeregowa a anotacja równoległa . . . . . . . . . . .    71
  4.2.3. Preanotacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    72
  4.2.4. Superanotacja automatyczna . . . . . . . . . . . . . . . . . . .    73
  4.3. Prace anotacyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    75
  4.3.1. Faza rozpoznawcza . . . . . . . . . . . . . . . . . . . . . . . . .    75
  4.3.2. Anotacja koreferencji nominalnej . . . . . . . . . . . . . . . . .    76
  4.3.3. Anotacja ogólnych zależności referencyjnych . . . . . . . . . .    78
  4.4. Narzędzia anotacyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    79
  4.5. Zgodność anotatorów . . . . . . . . . . . . . . . . . . . . . . . . . . . .    83
  4.5.1. Wzmianki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    83
  4.5.2. Klastry konferencyjne . . . . . . . . . . . . . . . . . . . . . . .    84
  4.5.3. Pozostałe relacje . . . . . . . . . . . . . . . . . . . . . . . . . . .    85
  4.6. Korekta błędów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    87
  4.7. Udostępnienie korpusu . . . . . . . . . . . . . . . . . . . . . . . . . . . .    88
  4.7.1. Format SemEval/CoNLL . . . . . . . . . . . . . . . . . . . . . .    89
  4.7.2. Format MMAX . . . . . . . . . . . . . . . . . . . . . . . . . . . .    91
  4.7.3. Format TEI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    94
  4.7.4. Format narzędzia BRAT i wersja online korpusu . . . . . . . .    96
  4.7.5. Wyszukiwarka korpusowa . . . . . . . . . . . . . . . . . . . . .    101
  4.8. Statystyki korpusowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    101
  4.8.1. Własności tekstów . . . . . . . . . . . . . . . . . . . . . . . . . .    101
  4.8.2. Własności wzmianek . . . . . . . . . . . . . . . . . . . . . . . .    103
  4.8.3. Statystyka relacji referencyjnych . . . . . . . . . . . . . . . . .    107
  5. Implementacja    113
  5.1. Wykrywanie wzmianek . . . . . . . . . . . . . . . . . . . . . . . . . . .    113
  5.1.1. System regułowy . . . . . . . . . . . . . . . . . . . . . . . . . . .    114
  5.1.2. System statystyczny . . . . . . . . . . . . . . . . . . . . . . . . .    115
  5.2. Wykrywanie koreferencji . . . . . . . . . . . . . . . . . . . . . . . . . .    117
  5.2.1. System regułowy . . . . . . . . . . . . . . . . . . . . . . . . . . .    117
  5.2.2. System statystyczny . . . . . . . . . . . . . . . . . . . . . . . . .    118
  5.2.3. System sitowy . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    120
  5.2.4. System neuronowy . . . . . . . . . . . . . . . . . . . . . . . . . .    122
  5.2.5. System hybrydowy . . . . . . . . . . . . . . . . . . . . . . . . . .    125
  5.3. Dekodowanie relacji pośrednich i pomocniczych . . . . . . . . . . . .    125
  6. Ewaluacja szczegółowa    127
  6.1. Wykrywanie wzmianek . . . . . . . . . . . . . . . . . . . . . . . . . . .    127
  6.2. Wykrywanie koreferencji . . . . . . . . . . . . . . . . . . . . . . . . . .    128
  6.2.1. Wzmianki idealne . . . . . . . . . . . . . . . . . . . . . . . . . .    128
  6.2.2. Wzmianki systemowe . . . . . . . . . . . . . . . . . . . . . . . .    129
  6.3. Wykrywanie wybranych zależności pośrednich i pomocniczych . . .    130
  6.4. Analiza błędów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    130
  6.4.1. Błędy wykrywania wzmianek . . . . . . . . . . . . . . . . . . .    133
  6.4.2. Błędy wykrywania koreferencji . . . . . . . . . . . . . . . . . .    135
  6.4.3. Analiza relacji pośrednich . . . . . . . . . . . . . . . . . . . . .    136
  7. Perspektywy badań    139
  7.1. W stronę koreferencji uniwersalnej . . . . . . . . . . . . . . . . . . . .    139
  7.2. Model Penn Discourse Treebank . . . . . . . . . . . . . . . . . . . . . .    142
  7.3. Anotacja metatekstowa . . . . . . . . . . . . . . . . . . . . . . . . . . .    146
  Podsumowanie    149
  English summary    153
  Bibliografia    161
  Skorowidz    187
  Skorowidz terminów angielskich    189
  Wykaz powstałych narzędzi i zasobów    191
  
  Preface    13
  Funding information    15
  Acknowledgements    17
  1. The point of departure    19
  1.1. Reference, coreference, anaphora, association . . . . . . . . . . . . .    19
  1.2. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    21
  1.3. Research objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    22
  1.4. Scope of work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    23
  1.5. Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    24
  2. From theoretical perspective to decoding of referential relations    27
  2.1. The concept and scope of reference . . . . . . . . . . . . . . . . . . . .    27
  2.2. Classifications of mention types and referential relations . . . . . . .    29
  2.2.1. Klemensiewicz . . . . . . . . . . . . . . . . . . . . . . . . . . . .    30
  2.2.2. Topoli´nska . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    31
  2.2.3. Paduczewa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    32
  2.2.4. Clark and other foreign classifications . . . . . . . . . . . . . .    33
  2.3. Features of referential relations . . . . . . . . . . . . . . . . . . . . . .    35
  2.4. Corpus projects and automated resolution . . . . . . . . . . . . . . . .    38
  2.5. Computer-based implementations of reference . . . . . . . . . . . . .    41
  2.6. Evaluation methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    48
  2.6.1. MUC metric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    50
  2.6.2. B3 metric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    51
  2.6.3. CEAF metric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    52
  2.6.4. BLANC metric . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    53
  3. Typology of referential relations    55
  3.1. Discourse world and referential properties . . . . . . . . . . . . . . . .    55
  3.2. Mention types and borders . . . . . . . . . . . . . . . . . . . . . . . . .    56
  10 Table of contents
  3.3. Textual relations vs. out-of-text reference . . . . . . . . . . . . . . . .    58
  3.4. Referential typology . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    59
  3.4.1. Coreference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    61
  3.4.2. Indirect reference . . . . . . . . . . . . . . . . . . . . . . . . . .    61
  3.4.3. Supporting relations . . . . . . . . . . . . . . . . . . . . . . . . .    63
  3.4.4. Excluding relations . . . . . . . . . . . . . . . . . . . . . . . . .    63
  3.4.5. Facets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    64
  4. Corpus of referential relations    67
  4.1. Text selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    67
  4.2. Annotation strategy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    69
  4.2.1. Number and profile of annotators . . . . . . . . . . . . . . . .    69
  4.2.2. Serial vs. parallel annotation . . . . . . . . . . . . . . . . . . .    71
  4.2.3. Pre-annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . .    72
  4.2.4. Automated adjudication . . . . . . . . . . . . . . . . . . . . . .    73
  4.3. Annotation phases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    75
  4.3.1. Preparatory phase . . . . . . . . . . . . . . . . . . . . . . . . . .    75
  4.3.2. Annotation of nominal coreference . . . . . . . . . . . . . . . .    76
  4.3.3. Annotation of referential relations . . . . . . . . . . . . . . . .    78
  4.4. Annotation tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    79
  4.5. Annotator agreement . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    83
  4.5.1. Mentions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    83
  4.5.2. Coreference clusters . . . . . . . . . . . . . . . . . . . . . . . . .    84
  4.5.3. Other relations . . . . . . . . . . . . . . . . . . . . . . . . . . . .    85
  4.6. Error correction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    87
  4.7. Corpus availability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    88
  4.7.1. SemEval/CoNLL format . . . . . . . . . . . . . . . . . . . . . . .    89
  4.7.2. MMAX format . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    91
  4.7.3. TEI format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    94
  4.7.4. BRAT format and online corpus version . . . . . . . . . . . . .    96
  4.7.5. Corpus search engine . . . . . . . . . . . . . . . . . . . . . . . .    101
  4.8. Corpus statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    101
  4.8.1. Textual properties . . . . . . . . . . . . . . . . . . . . . . . . . .    101
  4.8.2. Mention statistics . . . . . . . . . . . . . . . . . . . . . . . . . .    103
  4.8.3. Coreference clusters . . . . . . . . . . . . . . . . . . . . . . . . .    107
  Table of contents    11
  5. Implementation    113
  5.1. Mention detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    113
  5.1.1. Rule-based mention detection . . . . . . . . . . . . . . . . . . .    114
  5.1.2. Statistical mention detection . . . . . . . . . . . . . . . . . . . .    115
  5.2. Coreference resolution . . . . . . . . . . . . . . . . . . . . . . . . . . . .    117
  5.2.1. Rule-based coreference resolution . . . . . . . . . . . . . . . .    117
  5.2.2. Statistical coreference resolution . . . . . . . . . . . . . . . . .    118
  5.2.3. Sieve-based coreference resolution . . . . . . . . . . . . . . . .    120
  5.2.4. Deep network-based coreference resolution . . . . . . . . . .    122
  5.2.5. Hybrid system . . . . . . . . . . . . . . . . . . . . . . . . . . . .    125
  5.3. Decoding associative and auxiliary relations . . . . . . . . . . . . . . .    125
  6. Evaluation    127
  6.1. Mention detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    127
  6.2. Coreference resolution . . . . . . . . . . . . . . . . . . . . . . . . . . . .    128
  6.2.1. Gold mentions . . . . . . . . . . . . . . . . . . . . . . . . . . . .    128
  6.2.2. System mentions . . . . . . . . . . . . . . . . . . . . . . . . . . .    129
  6.3. Detection of selected indirect relations . . . . . . . . . . . . . . . . . .    130
  6.4. Error analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    130
  6.4.1. Mention detection errors . . . . . . . . . . . . . . . . . . . . . .    133
  6.4.2. Coreference resolution errors . . . . . . . . . . . . . . . . . . .    135
  6.4.3. Analysis of bridging relations . . . . . . . . . . . . . . . . . . .    136
  7. Research perspectives    139
  7.1. Towards Universal Coreference . . . . . . . . . . . . . . . . . . . . . . .    139
  7.2. Penn Discourse Treebank model . . . . . . . . . . . . . . . . . . . . . .    142
  7.3. Discourse-based annotation . . . . . . . . . . . . . . . . . . . . . . . . .    146
  Conclusions    149
  English summary    153
  Bibliography    161
  Glossary    187
  Glossary of English terms    189
  Implemented tools and resources    191
RozwińZwiń
W celu zapewnienia wysokiej jakości świadczonych przez nas usług, nasz portal internetowy wykorzystuje informacje przechowywane w przeglądarce internetowej w formie tzw. „cookies”. Poruszając się po naszej stronie internetowej wyrażasz zgodę na wykorzystywanie przez nas „cookies”. Informacje o przechowywaniu „cookies”, warunkach ich przechowywania i uzyskiwania dostępu do nich znajdują się w Regulaminie.

Nie pokazuj więcej tego powiadomienia