通常情况下数据都包装在pdfs里面,值得庆幸的是有很多途径可以从中提取出数据。一个非常好的包就是pdftools(Github link),这篇博客将描述该包的一些基本函数。 首先,我们寻找一些包含有趣信息的pdf文件。为了完成目标,我使用世界健康组织整理的国家糖尿病数据概要。你可以在 这里 找到这些文件。如果你打开其中一个pdf文件,你将看到这样的信息: qaYzQbV.png!web 我比较关心的是表格中间的这部分内容: ZjyQJnN.png!web 我想从不同国家获取这部分数据,把它们放进一个有条理的数据框,并且制作简单的绘图。首先从下载需要的程序包开始:

country <- c("lux", "fra", "deu", "usa", "prt", "gbr")
url <- "http://www.who.int/diabetes/country-profiles/{country}_en.pdf?ua=1"




(urls <- glue(url))
这语句创建了一个向量包含了所有的链接,其中的{country}被变量country里面的代码逐一替换。 我采用一样的方法创建一系列pdf的名字用于我将要下载的文件。

pdf_names <- glue("report_{country}.pdf")


walk2(urls, pdf_names, download.file, mode = "wb")

walk2()是purrr包里面跟map2()类似的函数。你可以使用map2(),但walk2()用在这里更清洁,因为download.file()是对下载文件产生一定副作用的函数;map2()用于没有副作用的函数。 现在,我终于可以使用pdftools包里面的pdf_text()函数提取pdf文件里面的文本信息:

raw_text <- map(pdf_names, pdf_text)


如你所看的那样,这是一串非常长的字符,包含了很多换行符("\n")。首先,我们需要根据"\n"分离字符串。其次,或许很难看到,但表格以字串“Prevalence of diabetes”开始,并且以“National response to diabetes”结束。接着,我们需要从文本中提取国家名,把它们放在同一列。你将看到,一系列的操作是必须的,因此,我将把所有针对raw_text的操作放在一个函数里面。

clean_table <- function(table){
    table <- str_split(table, "\n", simplify = TRUE)
    country_name <- table[1, 1] %>% 
        stringr::str_squish() %>% 
    table_start <- stringr::str_which(table, "Prevalence of diabetes")
    table_end <- stringr::str_which(table, "National response to diabetes")
    table <- table[1, (table_start +1 ):(table_end - 1)]
    table <- str_replace_all(table, "\\s{2,}", "|")
    text_con <- textConnection(table)
    data_table <- read.csv(text_con, sep = "|")
    colnames(data_table) <- c("Condition", "Males", "Females", "Total")
    dplyr::mutate(data_table, Country = country_name)



它使用了一种非常奇异的规则表述:“.+?(?=\sTotal)”。它提取字串“Total”前隔着空格的任何成分。这是因为包含国家名字的第一行是这样的:“Luxembourg Total population: 567 000\n”。所以“Total”前隔着空格的任何成分就是国家名字。这就是它们所在的行。

table <- str_replace_all(table, "\\s{2,}", "|")
text_con <- textConnection(table)
data_table <- read.csv(text_con, sep = "|")

第一行取代2个空格或者更多("\s{2,}")"|".我这样做的原因是,可以通过识别分隔符“|”在R里面以数据框的形式读取表格的信息。第二行,我把table作为一个文本连接,以便可以在R通过read.csv()的方式读取。倒数第二行,我改变了列名,并且在数据框加入了“Country”新列。 现在,我可以把这个函数应用到一系列pdf的原始文本中:

diabetes <- map_df(raw_text, clean_table) %>% 
    gather(Sex, Share, Males, Females, Total) %>% 
    mutate(Share = as.numeric(str_extract(Share, "\\d{1,}\\.\\d{1,}")))


ggplot(diabetes) + theme_fivethirtyeight() + scale_fill_hc() +
    geom_bar(aes(y = Share, x = Sex, fill = Country), 
             stat = "identity", position = "dodge") +

qYRrEjM.png!web 以上就是绘制该图的一系列工作!

作者:Bruno Rodrigues 原文链接:https://www.brodrigues.co/blog/2018-06-10-scraping_pdfs/

版权声明: 作者保留权利。文章为作者独立观点,不代表数据人网立场。严禁修改,转载请注明原文链接:http://shujuren.org/article/818.html

数据人网: 数据人学习,交流和分享的平台,诚邀您创造和分享数据知识,共建和共享数据智库。

