会员   密码 您忘记密码了吗?
1,505,848 本书已上架      购物流程 | 常见问题 | 联系我们 | 关于我们 | 用户协议

有店 App


当前分类

浏览历史

当前位置: 首页 > 专业/教科书/政府出版品 > 财经类 > 文字探勘基礎:從R語言入門
文字探勘基礎:從R語言入門
上一张
下一张
prev next

文字探勘基礎:從R語言入門

作者: 譚躍
出版社: 五南
出版日期: 2023-09-25
商品库存: 点击查询库存
以上库存为海外库存属流动性。
可选择“空运”或“海运”配送,空运费每件商品是RM14。
配送时间:空运约8~12个工作天,海运约30个工作天。
(以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品)
定价:   NT350.00
市场价格: RM53.24
本店售价: RM47.38
购买数量:
collect Add to cart Add booking
详细介绍 商品属性 商品标记
內容簡介

  ⊙沒有資訊工程背景的文科生也能學會程式語言,適合人文社會科學領域之學生、研究人員自學。
  ⊙理論與實作兼具,深入淺出說明用R語言執行文字探勘的流程及方法,操作步驟清楚易懂。
  ⊙內容包含資料清理、斷詞和詞頻、情緒分析和字典法、tf-idf計算和應用、主題建模、機器學習、語意網絡的社會網絡分析,以及網站資料的抓取等。
 
  【自學R語言,順利掌握文字探勘】
 
  文字探勘是以文字作為分析的資料,藉由技術識別、擷取有價值的部分,有系統地管理、整合和應用文字所提供的訊息,像社群網站上常見的「文字雲」即是一種。
 
  本書針對中文透過R語言操作基礎的文字探勘,從人文社會科學領域闡述編程的概念,可使自學者更容易掌握文字探勘的技能。內容包含了解R、文字資料的清理、斷詞和詞頻、情緒分析和字典法、tf-idf值的計算和應用、主題建模、機器學習、詞的關係、語意網絡的社會網絡分析,以及網站資料抓取等。


作者介紹

作者簡介
 
譚躍
 
  現職:國立中山大學管理學院行銷傳播管理研究所副教授
  學歷:PhD,2008年畢業於Indiana University Bloomington的新聞學院
  經歷:國立中山大學管理學院行銷傳播管理研究所博士後


目錄

Chapter 1 R語言下載與設置
第一節 R軟體下載
一、前言
二、R下載教學
第二節 介紹R
一、R介面與設置
第三節 RStudio下載
一、RStudio下載教學
第四節 介紹RStudio
一、RStudio介面與設置

Chapter 2 讀入與初步了解R資料
第一節 前言
第二節 設定R的工作環境
一、設定工作的編碼系統
二、設定工作資料夾
第三節 將資料讀入R
一、將不同形式的檔案讀入R
二、物件命名
三、執行R程式
第四節 了解R資料
一、透過物件區的菜單鳥瞰
二、指代資料中變項和觀察值
三、描述R的資料特徵
四、以圖形呈現變項的特徵
第五節 儲存資料

Chapter 3 資料的初步清理:使用dplyr
第一節 前言
一、安裝套件
第二節 用dplyr整理資料
一、重新排列資料(遞增、遞減)
二、選擇資料
三、刪除資料
四、修改變項
五、概括內容資料(樣本)的特徵
六、分組處理的功能

Chapter 4 資料的進階清理
第一節 前言
第二節 增加變項
一、直接產生並賦值
二、從舊變項產生
三、從文字變項(strings)中提取
第三節 清理文字資料(strings)
一、strings的清理功能介紹
二、查找
三、替換
四、黏貼
第四節 編碼員間編碼信度
一、隨機抽取樣本
二、交叉編碼
三、計算編碼員間信度或電腦與編碼員間效度
第五節 畫資料的時間序列圖
一、介紹
二、計算每天的報導量
三、定義時間變項
四、使用ggplot2畫圖

Chapter 5 斷詞和詞頻
第一節 前言
第二節 斷詞
一、基本概念介紹
二、使用tidytext的unnest_tokens指令斷詞
三、計算詞頻
四、套用停頓詞字典
五、畫圖
六、套用用戶字典
七、使用jiebaR斷詞
第三節 詞頻分析
一、描述一整個文集
二、比較不同文集之間的差異

Chapter 6 情緒分析和字典法
第一節 前言
第二節 情緒分析簡介
第三節 字典法和常用的情緒字典
第四節 情緒詞的詞頻計算
第五節 情緒分析的研究應用
一、套用和驗證字典
二、更精準的情緒測量
三、考察情緒分數與其他變項之間的關係

Chapter 7 tf-idf值的計算和應用
第一節 tf-idf的概念介紹
第二節 tf-idf的計算
第三節 tf-idf的應用
一、比較不同文類的獨特性
二、在機器學習中代表文檔的內容特徵
三、作為過濾關鍵詞的標準
第四節 其他過濾關鍵詞的方法
第五節 文字探勘結果的統計分析

Chapter 8 主題建模
第一節 前言
第二節 LDA的原理和應用步驟
一、第一步:斷詞
二、第二步:詞彙向量化、尺度縮減及製作dtm
三、第三步:決定最佳主題數目
四、第四步:進行主題建模並為主題命名
五、 第五步:考察每個主題和metadata之間的關係
六、第六步:報告主題出現的比例、資料檔合併
第三節 K-means的原理和應用步驟

Chapter 9 有監督式的機器學習
第一節 機器學習在文字探勘的應用
第二節 機器學習的定義和基本步驟
第三節 機器學習的程式碼練習:迴歸模型
一、讀入有標示的資料,並分成訓練集和測試集
二、分別對訓練集和測試集的文字資料建立dfm
三、使用演算法從訓練集中學習,建立一個模型
四、用模型預測測試集中的資料
五、測量表現(measure model performance)
六、用訓練好的模型預測未標示的資料
第四節 機器學習的程式碼練習:分類模型
一、SVM(SUPPORT VECTOR MACHINE)
二、LOGISTIC REGRESSION
三、NAÏVE BAYES
四、WORDSCORES TEXT MODEL

Chapter 10 詞的關係
第一節 前言
第二節 Bigram及其應用
一、Bigram的製作
二、Bigram的詞頻計算
三、Bigram的應用
第三節 共現詞(concordance)
一、詞的關係一:出現在同一篇文章中
二、詞的關係二:出現在一定的距離內

Chapter 11 語意網絡的社會網絡分析
第一節 前言
第二節 社會網絡分析的重要概念介紹
第三節 讀入網絡資料
第四節 網絡資料的形式和轉換
一、網絡資料的基本形式
二、網絡資料不同形式之間的轉換
三、Two-mode data
第五節 語意網絡的描述性分析
一、整體網絡分析
二、節點分析
三、組和次團體的分析(subgroups and communities)
第六節 分析兩個網絡的關係
一、比較兩個網絡的相似程度
二、計算兩個網絡之間的相關程度
三、考察多個網絡之間的關係

Chapter 12 抓取網站資料
第一節 前言
第二節 觀察資料
一、了解資料型態
二、觀察原始碼
第三節 資料抓取
一、套件介紹
二、抓取一篇文章
三、抓取一頁搜尋頁面的所有文章
四、抓取所有搜尋頁面的所有文章

參考文獻