Automatyczne wykrywanie nominalnych zależności referencyjnych w polskich tekstach współczesnych

Pobierz fragment (pdf)
Pobierz fragment (pdf)
Pobierz fragment (pdf)
Spis treści (pdf)
Pobierz fragment (pdf)
Pobierz fragment (pdf)

Automatyczne wykrywanie nominalnych zależności referencyjnych w polskich tekstach współczesnych

1 opinia

Autor:

Maciej Ogrodniczuk

Wydawca:

Uniwersytet Warszawski

Format:

ibuk

Dostęp darmowy

Książka powstała w wyniku badań lingwistyczno-informatycznych nad automatycznym dekodowaniem relacji referencyjnych w tekstach polskich.

Autor przedstawia propozycję taksonomii relacji tego rodzaju i wykorzystuje ją w procesie budowy reprezentatywnego, ręcznie anotowanego korpusu zależności referencyjnych, który powstał na bazie tekstów Narodowego Korpusu Języka Polskiego. Dane korpusu używane są do wytrenowania kilku systemów do wykrywania wzmianek i koreferencji reprezentujących różne metodologie algorytmiczne – regułową, statystyczną, algorytm sita, głębokie sieci neuronowe – oraz integrujących bogate zasoby lingwistyczne i z zakresu wiedzy ogólnej: rozszerzenia formalnej gramatyki języka polskiego, dane słownika walencyjnego czy bazę wyrażeń omownych.

Przetestowanych zostaje kilkaset cech wzmianek do wykrywania koreferencji oraz kilka konfiguracji sieci neuronowej. Powstaje także prototypowa konfiguracja metody wykrywania relacji agregacyjnych, kompozycyjnych i predykatywnych. Formalna ewaluacja powstałych systemów wykazuje wyniki porównywalne z systemami tego typu dla innych języków.

The book features the findings of computational linguistics research on the automatic decoding of referential relations in Polish texts. The author presents a specific definition of coreference, constructs a representative corpus of coreference using texts from the National Corpus of Polish, implements systems for detecting mentions and coreferences, and evaluates them, achieving results comparable with systems of this kind for other languages.

Rok wydania	2019
Liczba stron	192
Kategoria	Publikacje darmowe
Wydawca	Uniwersytet Warszawski
ISBN-13	978-83-235-3630-7
Numer wydania	1
Informacja o sprzedawcy	ePWN sp. z o.o.

Publikacje darmowe

INNE EBOOKI AUTORA

Jasnopis

Włodzimierz Gruszczyński

45,00 zł

pdf, ibuk

Ciekawe propozycje

Automatyczne sterowanie i regulacja. Procesy...

Eugeniusz Rosołowski

Akademicka Oficyna Wydawnicza EXIT Andrzej Lang

7,00 zł

ibuk

Obserwowany w ostatnich dekadach szybki rozwój rożnych technik przetwarzania informacji, informatyki, czy też teorii modelowania, przyczynił się do rozszerzenia zakresu możliwych obszarów wykorzystania powstałej w ten sposób wiedzy i... więcej >

Automatyczne tworzenie semantycznych...

Elżbieta Hajnicz

Akademicka Oficyna Wydawnicza EXIT Andrzej Lang

6,92 zł

ibuk

W procesie kształtowania się języka zestaw pojęć zawsze wyprzedza opisujące je formy językowe. Patrząc jednak na przyswajanie języka z punktu widzenia jednostki, proces poznawania świata przebiega równolegle wraz z uczeniem się jego... więcej >

-17%

Pismo automatyczne. Praktyczny poradnik

Michael Sandler

Studio Astropsychologii

41,00 zł

49,40 zł

epub, mobi, pdf

Z dobrodziejstw pisma automatycznego może korzystać każdy. Wcale nie trzeba dysponować jakąś szczególną wiedzą z zakresu parapsychologii. Wystarczą proste praktyki duchowe, medytacje i pogłębiona intuicja. Dzięki tej książce dowiesz... więcej >

Automatyczna analiza składnikowa języka...

Marcin Woliński

Uniwersytet Warszawski

ibuk

W monografii przedstawiono opis fleksji i składni języka polskiego przystosowany do automatycznego przetwarzania tekstów. Opis ten stał się podstawą dwóch programów komputerowych: analizatora fleksyjnego Morfeusz i analizatora składniowego... więcej >

-17%

Automatyczna kontrola nieświadomych emocji

Dorota Kobylińska

Uniwersytet Warszawski

13,86 zł

16,70 zł

pdf, ibuk

Monografia empiryczna poświęcona ważnemu problemowi: czy i w jakim stopniu człowiek może poddać kontroli tzw. pierwotny afekt (czyli prymitywną, szybką odpowiedź emocjonalną na sygnały dobrostanu lub zagrożenia). Autorka stawia istotne... więcej >

-20%

Automatyczna sprzedaż plików

Anita Zielke

Ridero IT Solution

3,40 zł

4,25 zł

epub, mobi

Automatyczna sprzedaż plików, pozwala na samoobsługową sprzedaż produktów cyfrowych, którą można samodzielnie sobie ustawić. Dzięki niej można zyskać więcej czasu dla siebie, a system działa nawet wtedy, gdy nie jesteśmy... więcej >

-20%

Całodobowy automatyczny pomiar ciśnienia...

Red. Jacek Lewandowski

Oficyna Wydawnicza Medical Education sp. z o.o.

104,00 zł

130,00 zł

pdf, ibuk

Monografia porusza wszystkie kluczowe kwestie związane z całodobowym automatycznym pomiarem ciśnienia tętniczego, rozwiewa wątpliwości i daje jasne wskazówki dotyczące użycia tego niezwykle ważnego nowoczesnego narzędzia diagnostycznego.... więcej >

-24%

Innowacyjne systemy automatycznego...

Andrzej Kochan

Oficyna Wydawnicza Politechniki Warszawskiej

18,24 zł

24,00 zł

pdf, ibuk

Prezentowana monografia ma na celu przedstawienie informacji na temat innowacyjnych systemów automatycznego transportu szynowego na przykładzie rozwiązań APM i monorail oraz możliwości ich implementacji w Polsce. Analizę przeprowadzono z... więcej >

-20%

Podstawy regulacji automatycznej

Karol Rumatowski

Wydawnictwo Politechniki Poznańskiej

10,40 zł

13,00 zł

pdf, ibuk

Ujęto w nim zagadnienia analizy czasowej i częstotliwościowej liniowych stacjonarnych układów regulacji o działaniu ciągłym i dyskretnym oraz układów regulacji nieliniowej na przykładzie regulacji dwu- i trójpołożeniowej. Celem... więcej >

Spis treści

Przedmowa	13
Informacja o finansowaniu prac	15
Podziękowania	17

1. Założenia badawcze 19
1.1. Referencja, koreferencja, anafora, asocjacja	19
1.2. Motywacja	21
1.3. Cele badawcze	22
1.4. Zakres badań	23
1.5. Metodologia	24

2. Od ujęcie teoretycznych do dekodowania relacji referencyjnych 27
2.1. Pojęcie i zakres referencji	27
2.2. Klasyfikacje typów wzmianek i relacji referencyjnych	29
2.2.1. Klemensiewicz	30
2.2.2. Topolińska	31
2.2.3. Paduczewa	32
2.2.4. Clark i inne klasyfikacje zagraniczne	33
2.3. Cechy relacji referencyjnych	35
2.4. Projekty korpusowe	38
2.5. Komputerowe implementacje modelu referencji	41
2.6. Metody ewaluacji	48
2.6.1. Miara MUC	50
2.6.2. Miara B3	51
2.6.3. Miara CEAF	52
2.6.4. Miara BLANC	53

3. Model relacji referencyjnych 55
3.1. Świat tekstu i własność referencji	55
3.2. Typy i granice wzmianek	56
3.3. Relacje tekstowe i pozatekstowe	58
3.4. Typologia referencyjna	59
3.4.1. Koreferencja	61
3.4.2. Referencja pośrednia	61
3.4.3. Relacje wspierające	63
3.4.4. Relacje wykluczające	63
3.4.5. Aspekty	64

4. Korpus zależności referencyjnych 67
4.1. Wybór tekstów	67
4.2. Wybór strategii anotacyjnej	69
4.2.1. Liczba i profil anotatorów	69
4.2.2. Anotacja szeregowa a anotacja równoległa	71
4.2.3. Preanotacja	72
4.2.4. Superanotacja automatyczna	73
4.3. Prace anotacyjne	75
4.3.1. Faza rozpoznawcza	75
4.3.2. Anotacja koreferencji nominalnej	76
4.3.3. Anotacja ogólnych zależności referencyjnych	78
4.4. Narzędzia anotacyjne	79
4.5. Zgodność anotatorów	83
4.5.1. Wzmianki	83
4.5.2. Klastry konferencyjne	84
4.5.3. Pozostałe relacje	85
4.6. Korekta błędów	87
4.7. Udostępnienie korpusu	88
4.7.1. Format SemEval/CoNLL	89
4.7.2. Format MMAX	91
4.7.3. Format TEI	94
4.7.4. Format narzędzia BRAT i wersja online korpusu	96
4.7.5. Wyszukiwarka korpusowa	101
4.8. Statystyki korpusowe	101
4.8.1. Własności tekstów	101
4.8.2. Własności wzmianek	103
4.8.3. Statystyka relacji referencyjnych	107

5. Implementacja 113
5.1. Wykrywanie wzmianek	113
5.1.1. System regułowy	114
5.1.2. System statystyczny	115
5.2. Wykrywanie koreferencji	117
5.2.1. System regułowy	117
5.2.2. System statystyczny	118
5.2.3. System sitowy	120
5.2.4. System neuronowy	122
5.2.5. System hybrydowy	125
5.3. Dekodowanie relacji pośrednich i pomocniczych	125

6. Ewaluacja szczegółowa 127
6.1. Wykrywanie wzmianek	127
6.2. Wykrywanie koreferencji	128
6.2.1. Wzmianki idealne	128
6.2.2. Wzmianki systemowe	129
6.3. Wykrywanie wybranych zależności pośrednich i pomocniczych	130
6.4. Analiza błędów	130
6.4.1. Błędy wykrywania wzmianek	133
6.4.2. Błędy wykrywania koreferencji	135
6.4.3. Analiza relacji pośrednich	136

7. Perspektywy badań 139
7.1. W stronę koreferencji uniwersalnej	139
7.2. Model Penn Discourse Treebank	142
7.3. Anotacja metatekstowa	146

Podsumowanie	149
English summary	153
Bibliografia	161
Skorowidz	187
Skorowidz terminów angielskich	189
Wykaz powstałych narzędzi i zasobów 191

*********

Preface	13
Funding information	15
Acknowledgements	17

1. The point of departure 19
1.1. Reference, coreference, anaphora, association	19
1.2. Motivation	21
1.3. Research objectives	22
1.4. Scope of work	23
1.5. Methodology	24

2. From theoretical perspective to decoding of referential relations 27
2.1. The concept and scope of reference	27
2.2. Classifications of mention types and referential relations	29
2.2.1. Klemensiewicz	30
2.2.2. Topolińska	31
2.2.3. Paduczewa	32
2.2.4. Clark and other foreign classifications	33
2.3. Features of referential relations	35
2.4. Corpus projects and automated resolution	38
2.5. Computer-based implementations of reference	41
2.6. Evaluation methods	48
2.6.1. MUC metric	50
2.6.2. B3 metric	51
2.6.3. CEAF metric	52
2.6.4. BLANC metric	53

3. Typology of referential relations 55
3.1. Discourse world and referential properties	55
3.2. Mention types and borders	56
3.3. Textual relations vs. out-of-text reference	58
3.4. Referential typology	59
3.4.1. Coreference	61
3.4.2. Indirect reference	61
3.4.3. Supporting relations	63
3.4.4. Excluding relations	63
3.4.5. Facets	64

4. Corpus of referential relations 67
4.1. Text selection	67
4.2. Annotation strategy	69
4.2.1. Number and profile of annotators	69
4.2.2. Serial vs. parallel annotation	71
4.2.3. Pre-annotation	72
4.2.4. Automated adjudication	73
4.3. Annotation phases	75
4.3.1. Preparatory phase	75
4.3.2. Annotation of nominal coreference	76
4.3.3. Annotation of referential relations	78
4.4. Annotation tools	79
4.5. Annotator agreement	83
4.5.1. Mentions	83
4.5.2. Coreference clusters	84
4.5.3. Other relations	85
4.6. Error correction	87
4.7. Corpus availability	88
4.7.1. SemEval/CoNLL format	89
4.7.2. MMAX format	91
4.7.3. TEI format	94
4.7.4. BRAT format and online corpus version	96
4.7.5. Corpus search engine	101
4.8. Corpus statistics	101
4.8.1. Textual properties	101
4.8.2. Mention statistics	103
4.8.3. Coreference clusters	107

5. Implementation 113
5.1. Mention detection	113
5.1.1. Rule-based mention detection	114
5.1.2. Statistical mention detection	115
5.2. Coreference resolution	117
5.2.1. Rule-based coreference resolution	117
5.2.2. Statistical coreference resolution	118
5.2.3. Sieve-based coreference resolution	120
5.2.4. Deep network-based coreference resolution	122
5.2.5. Hybrid system	125
5.3. Decoding associative and auxiliary relations	125

6. Evaluation 127
6.1. Mention detection	127
6.2. Coreference resolution	128
6.2.1. Gold mentions	128
6.2.2. System mentions	129
6.3. Detection of selected indirect relations	130
6.4. Error analysis	130
6.4.1. Mention detection errors	133
6.4.2. Coreference resolution errors	135
6.4.3. Analysis of bridging relations	136

7. Research perspectives 139
7.1. Towards Universal Coreference	139
7.2. Penn Discourse Treebank model	142
7.3. Discourse-based annotation	146

Conclusions	149
English summary	153
Bibliography	161
Glossary	187
Glossary of English terms	189
Implemented tools and resources	191

RozwińZwiń