茱莉亚·斯拉格、戴维·罗宾逊著的《文本挖掘(基于R语言的整洁工具)》介绍了如何使用tidytext包以及其他基于R语言的tidy工具来进行文本挖掘。tidytext包提供的函数相对简单,但如何使用这个包则很重要。因此,本书还提供了真实的、极具吸引力的文本挖掘案例。
本书重点介绍实际软件实例和数据展示,几乎没有公式,但是有大量的代码。
当前很多数据都是非结构化的大规模文本,这给分析和可视化带来了挑战。茱莉亚·斯拉格、戴维·罗宾逊著的《文本挖掘(基于R语言的整洁工具)》使用实用的tidytext软件包来介绍文本挖掘技术,该包是由Julia Silge和David Robinson共同开发的R软件包(类似于ggplot2和dplyr软件包),开发时采用了整洁原则。本书将会介绍如何利用tidytext以及其他整洁工具使文本分析变得更容易、更有效。
本书展示如何将文本转换为数据框,然后提取和可视化文本的特征;并介绍如何将自然语言处理(NLP)融入有效的工作流程中;实用的代码示例和数据分析将帮助你了解文学作品、新闻和社交媒体中的有用信息。