Text Mining: metody, narzędzia i zastosowania

Wykorzystanie SAS Text Analytics

1 ocena

Format:

epub, mobi, ibuk

DODAJ DO ABONAMENTU

WYBIERZ RODZAJ DOSTĘPU

53,10  59,00

Format: epub, mobi

 

Dostęp online przez myIBUK

WYBIERZ DŁUGOŚĆ DOSTĘPU

Cena początkowa: 59,00 zł (-10%)

Najniższa cena z 30 dni: 29,50 zł  


53,10

w tym VAT

TA KSIĄŻKA JEST W ABONAMENCIE

Już od 24,90 zł miesięcznie za 5 ebooków!

WYBIERZ SWÓJ ABONAMENT

SAS Text Analytics to uniwersalna platforma zaspokajająca potrzeby informacyjne w organizacji do wydobywania i zarządzania informacją dostępną w różnego rodzaju dokumentach tekstowych.
Możliwości omówionych w książce narzędzi i zaimplementowanych algorytmów zostały zilustrowane na przykładach zbiorów danych z różnych dziedzin: zbioru krótkich wypowiedzi dotyczących sportu, pogody i zwierząt, zbioru opisów radiologicznych badań diagnostycznych jamy brzusznej oraz zbioru opinii użytkowników na temat telefonów z forów użytkowników.


Rok wydania2016
Liczba stron204
KategoriaZastosowania informatyki
WydawcaWydawnictwo Naukowe PWN
ISBN-13978-83-01-18686-9
Numer wydania1
Język publikacjipolski
Informacja o sprzedawcyePWN sp. z o.o.

Ciekawe propozycje

Spis treści

  Wykaz oznaczeń IX
  
  Wykaz skrótów XI
  
  Wprowadzenie     1
  
  Część I. Wprowadzenie do eksploracji danych tekstowych     5
  
  1. Trendy w rozwoju systemów informatycznych eksploracji danych     7
  
  2. Metody eksploracji danych tekstowych     11
    2.1. Przebieg analizy dokumentu tekstowego i charakterystyka stosowanych metod     12
    2.2. Określenie celu, zakresu i kosztów analizy     13
    2.3. Przekształcenie zbioru dokumentów źródłowych     13
      2.3.1. Informacja o częstości występowania poszczególnych terminów     13
      2.3.2. Postać ustrukturyzowana     15
    2.4. Wybór metody obliczeniowej     15
  
  3. Architektura oprogramowania do eksploracji danych tekstowych na przykładzie pakietu SAS Text Analytics firmy SAS Institute     17
    3.1. Rozpoczęcie pracy z programem Enterprise Miner (Text Miner)     19
      3.1.1. Tworzenie nowego projektu i biblioteki     19
      3.1.2. Tworzenie diagramów analizy danych     21
      3.1.3. Określanie źródła danych projektu     22
    3.2. Metodyka SEMMA     23
      3.2.1. Etap Próbkowanie     24
      3.2.2. Etap Eksploracja     24
      3.2.3. Etap Modyfikacja     25
      3.2.4. Etap Modelowanie     26
      3.2.5. Etap Ocena     27
    3.3. Text Miner – etapy przetwarzania     28
    3.4. Text Miner – komponenty     30
      3.4.1. Właściwości węzła Klastrowanie tekstu     30
      3.4.2. Właściwości węzła Filtrowanie tekstu     31
      3.4.3. Właściwości węzła Import tekstu     32
      3.4.4. Właściwości węzła Parsowanie tekstu     33
      3.4.5. Właściwości węzła Profil tekstu     35
      3.4.6. Właściwości węzła Generator reguł tekstu     35
      3.4.7. Właściwości węzła Temat tekstu     36
    3.5. Przykład: Klasteryzacja zbioru zdań     37
      3.5.1. Konfiguracja diagramu przepływu danych     37
      3.5.2. Konfiguracja poszczególnych węzłów i interpretacja wyników     38
      3.5.3. Podsumowanie     48
  
  Część II. Przetwarzanie informacji zawartej w dokumencie tekstowym     49
  
  4. Wybór funkcji wagującej macierzy częstości występowania terminów     51
    4.1. Wagi częstości     51
    4.2. Wagi wyrażenia     52
    4.3. Przykład obliczeniowy     53
    4.4. Podsumowanie     54
  
  5. Redukcja wymiarowości macierzy częstości występowania terminów     57
    5.1. Analiza semantyczna zmiennych ukrytych     57
      5.1.1. Rozkład SVD     58
      5.1.2. Przykład obliczeniowy rozkładu SVD     58
    5.2. Podsumowanie     62
  
  6. Wybór algorytmu klastrowania dokumentów tekstowych     63
    6.1. Określenie miary podobieństwa grupy dokumentów     63
    6.2. Algorytmy klastrowania     63
    6.3. Grupowanie za pomocą węzła Klastrowanie tekstów     66
      6.3.1. Węzeł Klastrowanie tekstu – algorytm Hierarchiczny     66
      6.3.2. Węzeł Klastrowanie tekstu – algorytm Maksymalizacja oczekiwań     66
      6.3.3. Węzeł Klastrowanie tekstu – właściwość Terminy opisowe     66
    6.4. Grupowanie za pomocą węzła Temat tekstu     69
      6.4.1. Tematy definiowane przez użytkownika     72
    6.5. Posumowanie     73
  
  7. Zarys metodyki tworzenia modeli predykcyjnych oraz porównywania zdolności predykcyjnych modeli     75
    7.1. Tworzenie modelu predykcyjnego     75
    7.2. Ocena błędu klasyfikacji     76
      7.2.1. Krzywe ROC     77
      7.2.2. Wykresy wzrostu     77
    7.3. Przykład: Użycie węzła Importowanie tekstu oraz porównywanie modeli predykcyjnych     78
      7.3.1. Konfiguracja diagramu przepływu danych oraz poszczególnych węzłów     79
    7.4. Podsumowanie     83
  
  8. Klastrowanie dokumentów nadzorowane przez użytkownika     85
    8.1. Charakterystyka węzła Generator reguł tekstu     85
    8.2. Podsumowanie     88
  
  Część III. Wydobywanie i organizacja wiedzy z dokumentów tekstowych w instytucji     89
  
  9. Zarys zagadnień związanych z wydobywaniem i organizacją wiedzy w instytucji     91
    9.1. Wprowadzenie     91
      9.1.1. SAS Crawler     92
      9.1.2. SAS Search and Indexing     93
      9.1.3. SAS Information Retrival Studio     94
    9.2. Podsumowanie     95
  
  10. Klasyfikacja dokumentów     97
    10.1. SAS Content Categorization Studio     97
      10.1.1. Metody klasyfikacji dokumentów dostępne w SAS CCS     99
      10.1.2. Wydobywanie konceptów dostępne w SAS CCS     101
      10.1.3. Wydobywanie kontekstu dostępne w SAS CCS     106
      10.1.4. Zakładanie nowego projektu     108
      10.1.5. Metodyka planowania projektu     110
      10.1.6. Tworzenie nowej kategorii     113
      10.1.7. Zasady używania kategoryzatora statystycznego     114
      10.1.8. Zasady używania kategoryzatora generującego reguły automatycznie     117
      10.1.9. Zasady używania kategoryzatora bazującego na regułach     121
      10.1.10. Praca z konceptami     125
    10.2. Przykład: Zastosowania klasyfikacji dokumentów w celu wspomagania diagnostyki w departamencie radiodiagnostyki     135
    10.3. Podsumowanie     142
  
  11. Analiza sentymentu     143
    11.1. SAS Sentiment Analysis Studio     144
      11.1.1. Metoda oceny sentymentu dla dokumentu     145
      11.1.2. Zakładanie nowego projektu     147
      11.1.3. Testowanie istniejących modeli     157
      11.1.4. Tworzenie modeli hybrydowych     158
      11.1.5. SAS Sentiment Analysis Server     158
    11.2. Przykład analizy sentymentu użytkowników telefonów komórkowych     158
    11.3. Podsumowanie     164
  
  Część IV. Inne zagadnienia przetwarzania dokumentów tekstowych     165
  
  12. Inne elementy przetwarzania danych tekstowych     167
    12.1. Porównywanie dokumentów za pomocą metryk     167
      12.1.1. Odległość kosinusowa     167
      12.1.2. Metryka Jaccarda     168
    12.2. Wydobywanie jednostek specjalnych z dokumentów     171
  
  Słownik pojęć związanych z eksploracją danych tekstowych     173
  
  Dodatek A: Podstawy obsługi środowiska SAS i język 4GL     177
    A.1. Wprowadzenie do obsługi systemu SAS     177
      A.1.1. Struktura zbioru danych SAS     180
      A.1.2. Formaty i informaty     182
    A.2. Język 4GL     182
      A.2.1. Blok typu DATA STEP     183
      A.2.2. Blok typu PROC STEP     183
  
  Dodatek B: Podstawy języka makr     187
    B.1. Makrozmienne     187
    B.2. Makroprogramy     187
  Dodatek C: Wizualna interpretacja danych     189
    C.1. Przegląd typów wykresów stosowanych dla danych tekstowych     190
  
  Bibliografia     193
  
  Indeks pojęć     195
  
  Spis rysunków     197
  
  Spis tabel     203
RozwińZwiń