Statystyczne metody klasyfikacji tekstów

Statystyczne metody klasyfikacji tekstów

1 opinia

Autor:

Adam Idczak, Jerzy Korzeniewski

Wydawca:

Wydawnictwo Uniwersytetu Łódzkiego

Format:

ibuk

Dostęp darmowy

W ostatnich latach, wraz z szybkim rozwojem technologii komputerowych i internetowych, coraz większego znaczenia nabierają komputerowe metody badania tekstu, w szczególności metody ustalania sentymentu czy też wydźwięku tekstu. Metody komputerowe mogą być później wykorzystywane w takich zagadnieniach, jak streszczanie tekstu, wyszukiwanie informacji z tekstu, sprawdzanie poprawności tekstu, maszynowe tłumaczenie tekstu i wielu innych. Niniejsza monografia zawiera przegląd metod analizy sentymentu dla dokumentów głównie anglojęzycznych, badanie efektywności wybranych metod analizy sentymentu w zastosowaniu do dokumentów polskojęzycznych, propozycje nowych metod, które mogą poprawić jakość klasyfikacji. W nowych propozycjach nacisk został położony na problemy klasyfikacji binarnej, niekorzystanie ze źródeł zewnętrznych, korzystanie w jak najmniejszym stopniu ze zbioru uczącego. Proponujemy przenieść ciężar klasyfikacji tekstów z obszernego zbioru uczącego na wyszukiwanie i analizowanie związków pomiędzy słowami tworzącymi dokument, a nawet grupami słów. Zaproponowana metoda ma prostą interpretację, może konkurować z metodami standardowymi oraz może być wykorzystana do innych problemów związanych z ustalaniem sentymentu tekstów.

Rok wydania	2022
Liczba stron	142
Kategoria	Publikacje darmowe
Wydawca	Wydawnictwo Uniwersytetu Łódzkiego
ISBN-13	978-83-8220-787-3
Numer wydania	1
Informacja o sprzedawcy	ePWN sp. z o.o.

Publikacje darmowe

Ciekawe propozycje

Statystyczne modelowanie zawartości...

Paweł Lula

Wydawnictwo Uniwersytetu Ekonomicznego w Krakowie

6,92 zł

ibuk

W monografii przedstawiono zagadnienia dotyczące opisu treści dokumentów tekstowych za pomocą modeli statystycznych. Modele te znajdują zastosowanie we wszystkich warstwach języka – od warstwy morfologicznej, przez warstwę frazeologiczną i... więcej >

Statystyczne systemy uczące się. Wydanie...

Jacek Koronacki

Akademicka Oficyna Wydawnicza EXIT Andrzej Lang

6,92 zł

ibuk

Książka jest nowoczesnym podręcznikiem statystycznego uczenia maszynowego, czyli statystycznej analizy danych wielowymiarowych rozpatrywanej z perspektywy popularnej dziś eksploracji danych (ang. data mining). Wyłożony materiał może być... więcej >

-20%

Doskonalenie jakości w bankach. Rozdział...

Opracowanie zbiorowe

CeDeWu

3,41 zł

4,26 zł

pdf

Na obecnym etapie rozwoju rynku usług bankowych w Polsce często w działalności banków nie wystarczy już tylko kształtowanie świadomości i postaw projakościowych pracowników banków oraz konstruowanie i wdrażanie systemów zarządzania... więcej >

Gospodarka zasobami ludzkimi w górnictwie...

Krystyna Melich-Iwanek

Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach

6,92 zł

ibuk

Praca jest poświęcona analizie prawidłowości kształtowania się bardzo specyficznego rynku pracy, jakim jest górnictwo węgla kamiennego. Wybór przedmiotu badania wynika stąd, że poza rolnictwem żaden segment polskiej gospodarki, a tym... więcej >

Metody statystyczne w analizach...

Red. Paweł Jokiel

Wydawnictwo Uniwersytetu Łódzkiego

ibuk

Od dawna wiadomo, że statystyki najlepiej uczyć się na przykładach. Zaproponowany podział treści książki, oparty na gruntownej analizie różnych problemów hydrologicznych, dobrze spełnia ten postulat, a dołączony rozdział metodyczny i... więcej >

-17%

Metody statystyczne w sterowaniu jakością...

Grzegorz Kończak

Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach

0,83 zł

1,00 zł

pdf, ibuk

Praca składa się z czterech części, które tworzy dziewiętnaście rozdziałów, oraz dodatku. W niniejszej pracy przedstawiono powszechnie znane klasyczne metody wspomagające zarządzanie jakością w przedsiębiorstwach o charakterze... więcej >

-17%

Myślenie statystyczne

Walenty Ostasiewicz

Wolters Kluwer Polska SA

28,22 zł

34,00 zł

pdf

W obecnych czasach globalnego ryzyka społecznego myślenie statystyczne staje się coraz bardziej powszechnie potrzebną umiejętnością, pozwala bowiem pewnie się poruszać w świecie niepewnym. Dla jednych stanowi ono podstawę i sposób... więcej >

-17%

Nieklasyczne metody statystyczne w badaniach...

Grzegorz Kończak

Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach

12,45 zł

15,00 zł

pdf, ibuk

Celami monografii są przedstawienie charakterystyki i wskazanie zalet wybranych metod statystycznych, które ze względu na swą konstrukcję można określić jako nieklasyczne metody statystyczne – w niniejszym ujęciu będą to metody... więcej >

-22%

Podstawy statystyki dla socjologów Tom 2...

Grzegorz Lissowski

Wydawnictwo Naukowe Scholar

16,38 zł

21,00 zł

pdf, ibuk

Przedstawiana w drugim tomie analiza zależności statystycznych między dwiema lub większą liczbą zmiennych to najczęściej stosowany przez socjologów rodzaj analiz statystycznych. Główną przyczyną trudności pojawiających się podczas... więcej >

Spis treści

Wstęp	7

Rozdział 1. Wprowadzenie w problematykę klasyfikacji tekstów	11
1.1. Podstawowe pojęcia	11
1.2. Uwagi terminologiczne i oznaczenia	16
1.3. Etapy wstępnej obróbki tekstu	18
1.4. Klasyfikatory wykorzystywane w badaniach	23
1.4.1. Naiwny klasyfikator Bayesa	23
1.4.1.1. Model zero-jedynkowy	24
1.4.1.2. Model wielomianowy	24
1.4.1.3. Model Gaussa	25
1.4.2. Regresja logistyczna	25
1.4.3. Metoda SVM	27
1.5. Miary jakości klasyfikacji	29
1.6. Testowe zbiory danych	30
1.6.1. Zbiór Reuters-21578	31
1.6.2. Zbiór Polarity	31
1.6.3. Zbiór OHSUMED	32
1.6.4. Zbiór bank	32
1.6.5. Zbiór perfumy	32
1.6.6. Zbiór perfumyzbil	33
1.6.7. Zbiór ksiazki	33
1.6.8. Zbiór ksiazkizbil	33
1.6.9. Zbiór apteki	33
1.6.10. Zbiór aptekizbil	34
1.6.11. Zbiór esklepy	34
1.6.12. Zbiór esklepyzbil	34
1.6.13. Zbiór kurier	34
1.6.14. Zbiór kurierzbil	35
1.6.15. Zbiór hotele	35
1.6.16. Zbiór hotelezbil	35
1.7. Oprogramowanie używane w badaniach	35
1.7.1. Wstępna obróbka tekstu	36
1.7.2. Klasyfikacja	38

Rozdział 2. Metody doboru zmiennych na potrzeby klasyfikacji tekstów	41
2.1. Podejścia modelowe	41
2.2. Podejścia heurystyczne	43
2.3. Metody inspirowane naturą	58
2.4. Metody z grupy ensamble	60
2.5. Wybrane metody wykorzystujące źródła zewnętrzne	62

Rozdział 3. Autorska propozycja metody klasyfikacji tekstów	65
3.1. Wnioski z przeglądu literatury – zadania badawcze	65
3.2. Sformułowanie nowej metody	66
3.3. Organizacja badania	73
3.4. Wyniki badania i wnioski	73

Zakończenie	105

Załącznik	107

Bibliografia	135

RozwińZwiń