Text Mining: metody, narzędzia i zastosowania

-10%

Pobierz fragment (mobi)
Pobierz fragment (epub)

PROMOCJA ABONAMENT

Text Mining: metody, narzędzia i zastosowania

Wykorzystanie SAS Text Analytics

1 ocena

Autor:

Mariusz Dzieciątko, Dominik Spinczyk

Wydawca:

Wydawnictwo Naukowe PWN

Format:

epub, mobi, ibuk

DODAJ DO ABONAMENTU

TA KSIĄŻKA JEST W ABONAMENCIE

Już od 24,90 zł miesięcznie za 5 ebooków!

WYBIERZ SWÓJ ABONAMENT

SAS Text Analytics to uniwersalna platforma zaspokajająca potrzeby informacyjne w organizacji do wydobywania i zarządzania informacją dostępną w różnego rodzaju dokumentach tekstowych.
Możliwości omówionych w książce narzędzi i zaimplementowanych algorytmów zostały zilustrowane na przykładach zbiorów danych z różnych dziedzin: zbioru krótkich wypowiedzi dotyczących sportu, pogody i zwierząt, zbioru opisów radiologicznych badań diagnostycznych jamy brzusznej oraz zbioru opinii użytkowników na temat telefonów z forów użytkowników.

Rok wydania	2016
Liczba stron	204
Kategoria	Zastosowania informatyki
Wydawca	Wydawnictwo Naukowe PWN
ISBN-13	978-83-01-18686-9
Numer wydania	1
Język publikacji	polski
Informacja o sprzedawcy	ePWN sp. z o.o.

POLECAMY

Funkcjonalność informatycznych systemów...

Arkadiusz Januszewski

6,92 zł

ibuk

Społeczeństwo informacyjne

Red. Joanna Papińska-Kacperek

6,92 zł

ibuk

-10%

Business Intelligence

Jerzy Surma

48,60 zł

54,00 zł

epub, mobi, ibuk

Systemy wspomagania decyzji

Anna M. Kwiatkowska

6,92 zł

ibuk

Funkcjonalność informatycznych systemów...

Arkadiusz Januszewski

6,92 zł

ibuk

Technologie informatyczne Firmy 2.0

Red. Krzysztof Kania

6,92 zł

ibuk

Multimedia w kształceniu

Józef Bednarek

6,92 zł

ibuk

-10%

Modelowanie systemów informatycznych w...

Andrzej Stasiak

35,10 zł

39,00 zł

epub, mobi, ibuk

Kształcenie na odległość

Józef Bednarek

6,92 zł

ibuk

Informatyka ekonomiczna 18. Systemy...

Red. Iwona Chomiak-Orsa

ibuk

Podstawy statystyki w Excelu

Wiesława Regel

6,92 zł

ibuk

Optymalizacja decyzji w arkuszu kalkulacyjnym

Cezary Dominiak

5,50 zł

ibuk

Projektowanie portali korporacyjnych dla...

Ewa Ziemba

6,92 zł

ibuk

-10%

Cyfrowa przestrzeń biznesowa

Matt Mayewski

26,91 zł

29,90 zł

epub, mobi, ibuk

Ciekawe propozycje

-24%

Between the Stage and the Text

Tomasz Burzyński

Uniwersytet Śląski

22,34 zł

29,40 zł

pdf, ibuk

Publikacja stanowi interdyscyplinarny projekt łączący w sobie teorie kulturoznawcze, socjologiczne, politologiczne i filozoficzne oraz zmierzający do przedstawienia dynamiki zmian społeczno-kulturowych z punktu widzenia zaufania i niepewności.... więcej >

-17%

Fast text. Jak pisać krótkie teksty,...

Joanna Wrycza-Bekier

Onepress

24,07 zł

29,00 zł

mp3

Krótkie teksty na szybkie czasyŚwiat przyspieszył, a tekst musi dotrzymać mu kroku. Czytelnik przesuwa palcem po ekranie, skanuje listę wyników, chwyta w locie strzępki zdań. W kilka sekund decyduje, co warto czytać. Gdy oko czytelnika... więcej >

On-line/Off-line. Between Text and...

Red. Peter Gärdenfors

Wydawnictwo Uniwersytetu Łódzkiego

ibuk

In times of rapid technological change, enthusiasts of the new often subscribe to the theory of “supersession,” the idea that newer technologies supersede or vanquish older ones. But as scholar of information Paul Duguid has observed, reality is... więcej >

-24%

Bankowość hipoteczna i rynek nieruchomości

Marcin Sitek

Wydawnictwo Key Text

30,38 zł

39,98 zł

pdf, ibuk

Dobry system kredytowy jest podstawowym warunkiem osiągnięcia sukcesu w restrukturyzacji systemu finansowania rynku nieruchomości w Polsce. Wymaga on stabilnych i zasobnych źródeł finansowania. Z tego względu w finansowaniu nieruchomości... więcej >

-24%

Czas w życiu i pracy

Hanna Fołtyn

Wydawnictwo Key Text

28,04 zł

36,90 zł

pdf, ibuk

Książka o czasie, traktowanym jako dobro rzadkie i jako coś niezwykłego, co nawet trudno zdefiniować.W XXI wieku coraz mocniej czujemy presję czasu, gdy nowoczesna technologia pozwala nie tylko mierzyć czas do milionowej części sekundy, ale... więcej >

-24%

Dylematy ekonomiczne przełomu stuleci

Aleksander Łukaszewicz

Wydawnictwo Key Text

15,20 zł

20,00 zł

pdf, ibuk

Proces gospodarczo-społeczny zawsze był pełen zawiłości i dylematów, współcześnie zaś cechy te ogromnie się zaostrzyły. Dylematy są właściwością powszechną, można je zidentyfikować w każdym zjawisku czy zespole zjawisk. Teoria... więcej >

-24%

Ekonometria. Podstawy teorii i praktyki

Brunon R. Górecki

Wydawnictwo Key Text

36,46 zł

47,97 zł

pdf, ibuk

Książka zawiera podstawowy kurs teorii i praktyki ekonometrii. Jest przeznaczona dla studentów różnych dyscyplin ekonomicznych poza specjalizacją ekonometrii. Będzie również użyteczna dla ekonomistów prowadzących analizy danych... więcej >

-24%

Ekonomia dla licealistów

Mieczysław Nasiłowski

Wydawnictwo Key Text

11,22 zł

14,76 zł

pdf, ibuk

Podręcznik z dziedziny mikro- i makroekonomii napisany dla uczniów szkół średnich.Przy pisaniu podręcznika autor uwzględnił sugestie nauczycieli wykładających od lat przedmioty ekonomiczne w szkołach średnich. W efekcie powstał... więcej >

-24%

Ekonomia Karola Marksa. Błędy,...

Leszek J. Jasiński

Wydawnictwo Key Text

37,92 zł

49,90 zł

pdf, ibuk

Autor na tle ekonomii współczesnej przeprowadza analizę poglądów Karola Marksa na sprawy gospodarcze i społeczne. Bada teorię Marksa pod względem jej zgodności z rzeczywistością: punktuje jej błędy, znajduje nieścisłości – ale i... więcej >

Spis treści

Wykaz oznaczeń IX

Wykaz skrótów XI

Wprowadzenie	1

Część I. Wprowadzenie do eksploracji danych tekstowych	5

1. Trendy w rozwoju systemów informatycznych eksploracji danych	7

2. Metody eksploracji danych tekstowych	11
2.1. Przebieg analizy dokumentu tekstowego i charakterystyka stosowanych metod	12
2.2. Określenie celu, zakresu i kosztów analizy	13
2.3. Przekształcenie zbioru dokumentów źródłowych	13
2.3.1. Informacja o częstości występowania poszczególnych terminów	13
2.3.2. Postać ustrukturyzowana	15
2.4. Wybór metody obliczeniowej	15

3. Architektura oprogramowania do eksploracji danych tekstowych na przykładzie pakietu SAS Text Analytics firmy SAS Institute	17
3.1. Rozpoczęcie pracy z programem Enterprise Miner (Text Miner)	19
3.1.1. Tworzenie nowego projektu i biblioteki	19
3.1.2. Tworzenie diagramów analizy danych	21
3.1.3. Określanie źródła danych projektu	22
3.2. Metodyka SEMMA	23
3.2.1. Etap Próbkowanie	24
3.2.2. Etap Eksploracja	24
3.2.3. Etap Modyfikacja	25
3.2.4. Etap Modelowanie	26
3.2.5. Etap Ocena	27
3.3. Text Miner – etapy przetwarzania	28
3.4. Text Miner – komponenty	30
3.4.1. Właściwości węzła Klastrowanie tekstu	30
3.4.2. Właściwości węzła Filtrowanie tekstu	31
3.4.3. Właściwości węzła Import tekstu	32
3.4.4. Właściwości węzła Parsowanie tekstu	33
3.4.5. Właściwości węzła Profil tekstu	35
3.4.6. Właściwości węzła Generator reguł tekstu	35
3.4.7. Właściwości węzła Temat tekstu	36
3.5. Przykład: Klasteryzacja zbioru zdań	37
3.5.1. Konfiguracja diagramu przepływu danych	37
3.5.2. Konfiguracja poszczególnych węzłów i interpretacja wyników	38
3.5.3. Podsumowanie	48

Część II. Przetwarzanie informacji zawartej w dokumencie tekstowym	49

4. Wybór funkcji wagującej macierzy częstości występowania terminów	51
4.1. Wagi częstości	51
4.2. Wagi wyrażenia	52
4.3. Przykład obliczeniowy	53
4.4. Podsumowanie	54

5. Redukcja wymiarowości macierzy częstości występowania terminów	57
5.1. Analiza semantyczna zmiennych ukrytych	57
5.1.1. Rozkład SVD	58
5.1.2. Przykład obliczeniowy rozkładu SVD	58
5.2. Podsumowanie	62

6. Wybór algorytmu klastrowania dokumentów tekstowych	63
6.1. Określenie miary podobieństwa grupy dokumentów	63
6.2. Algorytmy klastrowania	63
6.3. Grupowanie za pomocą węzła Klastrowanie tekstów	66
6.3.1. Węzeł Klastrowanie tekstu – algorytm Hierarchiczny	66
6.3.2. Węzeł Klastrowanie tekstu – algorytm Maksymalizacja oczekiwań	66
6.3.3. Węzeł Klastrowanie tekstu – właściwość Terminy opisowe	66
6.4. Grupowanie za pomocą węzła Temat tekstu	69
6.4.1. Tematy definiowane przez użytkownika	72
6.5. Posumowanie	73

7. Zarys metodyki tworzenia modeli predykcyjnych oraz porównywania zdolności predykcyjnych modeli	75
7.1. Tworzenie modelu predykcyjnego	75
7.2. Ocena błędu klasyfikacji	76
7.2.1. Krzywe ROC	77
7.2.2. Wykresy wzrostu	77
7.3. Przykład: Użycie węzła Importowanie tekstu oraz porównywanie modeli predykcyjnych	78
7.3.1. Konfiguracja diagramu przepływu danych oraz poszczególnych węzłów	79
7.4. Podsumowanie	83

8. Klastrowanie dokumentów nadzorowane przez użytkownika	85
8.1. Charakterystyka węzła Generator reguł tekstu	85
8.2. Podsumowanie	88

Część III. Wydobywanie i organizacja wiedzy z dokumentów tekstowych w instytucji	89

9. Zarys zagadnień związanych z wydobywaniem i organizacją wiedzy w instytucji	91
9.1. Wprowadzenie	91
9.1.1. SAS Crawler	92
9.1.2. SAS Search and Indexing	93
9.1.3. SAS Information Retrival Studio	94
9.2. Podsumowanie	95

10. Klasyfikacja dokumentów	97
10.1. SAS Content Categorization Studio	97
10.1.1. Metody klasyfikacji dokumentów dostępne w SAS CCS	99
10.1.2. Wydobywanie konceptów dostępne w SAS CCS	101
10.1.3. Wydobywanie kontekstu dostępne w SAS CCS	106
10.1.4. Zakładanie nowego projektu	108
10.1.5. Metodyka planowania projektu	110
10.1.6. Tworzenie nowej kategorii	113
10.1.7. Zasady używania kategoryzatora statystycznego	114
10.1.8. Zasady używania kategoryzatora generującego reguły automatycznie	117
10.1.9. Zasady używania kategoryzatora bazującego na regułach	121
10.1.10. Praca z konceptami	125
10.2. Przykład: Zastosowania klasyfikacji dokumentów w celu wspomagania diagnostyki w departamencie radiodiagnostyki	135
10.3. Podsumowanie	142

11. Analiza sentymentu	143
11.1. SAS Sentiment Analysis Studio	144
11.1.1. Metoda oceny sentymentu dla dokumentu	145
11.1.2. Zakładanie nowego projektu	147
11.1.3. Testowanie istniejących modeli	157
11.1.4. Tworzenie modeli hybrydowych	158
11.1.5. SAS Sentiment Analysis Server	158
11.2. Przykład analizy sentymentu użytkowników telefonów komórkowych	158
11.3. Podsumowanie	164

Część IV. Inne zagadnienia przetwarzania dokumentów tekstowych	165

12. Inne elementy przetwarzania danych tekstowych	167
12.1. Porównywanie dokumentów za pomocą metryk	167
12.1.1. Odległość kosinusowa	167
12.1.2. Metryka Jaccarda	168
12.2. Wydobywanie jednostek specjalnych z dokumentów	171

Słownik pojęć związanych z eksploracją danych tekstowych	173

Dodatek A: Podstawy obsługi środowiska SAS i język 4GL	177
A.1. Wprowadzenie do obsługi systemu SAS	177
A.1.1. Struktura zbioru danych SAS	180
A.1.2. Formaty i informaty	182
A.2. Język 4GL	182
A.2.1. Blok typu DATA STEP	183
A.2.2. Blok typu PROC STEP	183

Dodatek B: Podstawy języka makr	187
B.1. Makrozmienne	187
B.2. Makroprogramy	187
Dodatek C: Wizualna interpretacja danych	189
C.1. Przegląd typów wykresów stosowanych dla danych tekstowych	190

Bibliografia	193

Indeks pojęć	195

Spis rysunków	197

Spis tabel	203

RozwińZwiń