Statystyczne metody klasyfikacji tekstów

1 opinia

Format:

ibuk

W ostatnich latach, wraz z szybkim rozwojem technologii komputerowych i internetowych, coraz większego znaczenia nabierają komputerowe metody badania tekstu, w szczególności metody ustalania sentymentu czy też wydźwięku tekstu. Metody komputerowe mogą być później wykorzystywane w takich zagadnieniach, jak streszczanie tekstu, wyszukiwanie informacji z tekstu, sprawdzanie poprawności tekstu, maszynowe tłumaczenie tekstu i wielu innych. Niniejsza monografia zawiera przegląd metod analizy sentymentu dla dokumentów głównie anglojęzycznych, badanie efektywności wybranych metod analizy sentymentu w zastosowaniu do dokumentów polskojęzycznych, propozycje nowych metod, które mogą poprawić jakość klasyfikacji. W nowych propozycjach nacisk został położony na problemy klasyfikacji binarnej, niekorzystanie ze źródeł zewnętrznych, korzystanie w jak najmniejszym stopniu ze zbioru uczącego. Proponujemy przenieść ciężar klasyfikacji tekstów z obszernego zbioru uczącego na wyszukiwanie i analizowanie związków pomiędzy słowami tworzącymi dokument, a nawet grupami słów. Zaproponowana metoda ma prostą interpretację, może konkurować z metodami standardowymi oraz może być wykorzystana do innych problemów związanych z ustalaniem sentymentu tekstów.


Rok wydania2022
Liczba stron142
KategoriaPublikacje darmowe
WydawcaWydawnictwo Uniwersytetu Łódzkiego
ISBN-13978-83-8220-787-3
Numer wydania1
Informacja o sprzedawcyePWN sp. z o.o.

Ciekawe propozycje

Spis treści

  Wstęp    7
  
  Rozdział 1. Wprowadzenie w problematykę klasyfikacji tekstów    11
  1.1. Podstawowe pojęcia    11
  1.2. Uwagi terminologiczne i oznaczenia    16
  1.3. Etapy wstępnej obróbki tekstu    18
  1.4. Klasyfikatory wykorzystywane w badaniach    23
  1.4.1. Naiwny klasyfikator Bayesa    23
  1.4.1.1. Model zero-jedynkowy    24
  1.4.1.2. Model wielomianowy    24
  1.4.1.3. Model Gaussa    25
  1.4.2. Regresja logistyczna    25
  1.4.3. Metoda SVM    27
  1.5. Miary jakości klasyfikacji    29
  1.6. Testowe zbiory danych    30
  1.6.1. Zbiór Reuters-21578    31
  1.6.2. Zbiór Polarity    31
  1.6.3. Zbiór OHSUMED    32
  1.6.4. Zbiór bank    32
  1.6.5. Zbiór perfumy    32
  1.6.6. Zbiór perfumyzbil    33
  1.6.7. Zbiór ksiazki    33
  1.6.8. Zbiór ksiazkizbil    33
  1.6.9. Zbiór apteki    33
  1.6.10. Zbiór aptekizbil    34
  1.6.11. Zbiór esklepy    34
  1.6.12. Zbiór esklepyzbil    34
  1.6.13. Zbiór kurier    34
  1.6.14. Zbiór kurierzbil    35
  1.6.15. Zbiór hotele    35
  1.6.16. Zbiór hotelezbil    35
  1.7. Oprogramowanie używane w badaniach    35
  1.7.1. Wstępna obróbka tekstu    36
  1.7.2. Klasyfikacja    38
  
  Rozdział 2. Metody doboru zmiennych na potrzeby klasyfikacji tekstów    41
  2.1. Podejścia modelowe    41
  2.2. Podejścia heurystyczne    43
  2.3. Metody inspirowane naturą    58
  2.4. Metody z grupy ensamble    60
  2.5. Wybrane metody wykorzystujące źródła zewnętrzne    62
  
  Rozdział 3. Autorska propozycja metody klasyfikacji tekstów    65
  3.1. Wnioski z przeglądu literatury – zadania badawcze    65
  3.2. Sformułowanie nowej metody    66
  3.3. Organizacja badania    73
  3.4. Wyniki badania i wnioski    73
  
  Zakończenie    105
  
  Załącznik    107
  
  Bibliografia    135
RozwińZwiń