5  Пакеты в R

Автор

И.С. Поздняков

5.1 Дополнительные пакеты

R — очень богатый язык с широкими возможностями. Однако очень скоро мы поймем, что этих возможностей нам не хватает. Эти возможности нам могут предоставить дополнительные пакеты (packages).

В большинстве случаев основным содержанием пакетов является набор дополнительных функций. Кроме функций, пакеты могут содержать наборы данных и новые структуры данных.

Обычно пакеты посвящены решению какого-то класса задач в определенной области. Например, есть множество пакетов для создания какого-то одного типа визуализации. Еще один пример — пакет beepr, который содержит всего две функции: beep() и beep_on_error() для воспроизведения звукового сигнала. Это может быть удобно, если ваш скрипт работает долго, но вы хотите получить уведомление, когда его выполнение завершится.

Более крупные пакеты посвящены целому классу задач. Например, пакеты stringi и stringr посвящены работе со строками, значительно расширяя и делая более удобной работу со строковыми данными в R. Еще один пример: пакет igraph для работы с графами (сетями). Этот пакет предоставляет дополнительный класс данных igraph для хранения и работы с сетями.

Есть и совсем крупные пакеты, которые значительно расширяют базовый функционал R, изменяя основные принципы работы в нем. Это пакеты data.table и tidyverse. Это настолько крупные пакеты, что их даже называют отдельными диалектами R, потому что код, написанный с использованием этих пакетов, довольно сильно отличается от базового R. Кроме того, tidyverse - это не просто пакет, а целая экосистема пакетов, который взаимодополняют друг друга, но для удобства их можно устанавливать и загружать как один пакет tidyverse. Еще один пример крупной экосистемы из пакетов — это пакеты mlr3 и tidymodels для машинного обучения, который представляет собой большой расширяемый “пакет пакетов”, где отдельные пакеты посвящены отдельным этапам и задачам машинного обучения.

5.2 Встроенные пакеты R

Вообще, даже сам R является набором из нескольких пакетов: основного base и нескольких других, таких как stats, utils, graphics. Вот их полный список:

rownames(installed.packages(priority = "base"))
 [1] "base"      "compiler"  "datasets"  "graphics"  "grDevices" "grid"     
 [7] "methods"   "parallel"  "splines"   "stats"     "stats4"    "tcltk"    
[13] "tools"     "utils"    

Чтобы пользоваться этими пакетами ничего дополнительно делать не нужно.

5.3 Установка пакетов с CRAN

Функция install.packages() позволяет скачивать пакеты с Comprehensive R Archive Network (CRAN). На репозитории CRAN собрано более 19000 пакетов (число постоянно меняется, как в большую, так и меньшую сторону). Каждый из этих пакетов проходит проверку перед попаданием в CRAN: он должен быть хорошо задокументирован, стабильно работать и решать какую-то задачу.

Для примера установим пакет remotes. Это пакет для удобной установки пакетов не с CRAN и скоро нам понадобится.

install.packages("remotes")

При установке вы увидите много непонятных надписей красным (или черным) шрифтом. Не пугайтесь, это нормально, происходит скачивание и установка пакетов. Скорее всего, если нигде нет слова Error, то пакет успешно установился.

Иногда установка бывает очень долгой, потому что большие пакеты склонны иметь много зависимостей: для работы какого-то пакета может понадобиться другие пакеты, а для тех пакетов - еще какие-то пакеты. Таким образом, устанавливая какой-нибудь современный пакет, вы, возможно, установите десятки других пакетов! Зато если они понадобятся сами по себе, то их уже не нужно будет устанавливать.

5.4 Загрузка установленного пакета

Установить пакет с помощью install.packages() недостаточно, пакет нужно еще загрузить. Для этого есть функция library().

library("remotes")

В отличие от install.packages(), функция library() принимает название пакета и как строчку в кавычках, и как название без кавычек.

library(remotes)

Теперь функции, данные и классы из пакета доступны для работы.

Полезное: аналогия с Python

Если сравнивать с Python, то install.packages() – это аналог установки библиотек, например, с помощью pip, а library() – это аналог import (например, import pandas as pd).

5.5 Вызов функции из пакета с помощью ::

Если пакетом нужно воспользоваться всего один-два раза, то имеет смысл не подключать весь пакет, а загрузить отдельную функцию из него. Для этого есть специальный оператор ::, который использует функцию (указанную справа от ::) из выбранного пакета (указанного слева от ::), не загружая пакет полностью.

Для примера воспользуемся функцией package_deps() из только что установленного пакета remotes, которая возвращает все зависимости пакета:

remotes::package_deps("tidyverse")
Needs update -----------------------------
 package     installed available is_cran remote
 tidyselect  1.2.0     1.2.1     TRUE    CRAN  
 curl        5.2.0     5.2.1     TRUE    CRAN  
 ps          1.7.5     1.7.6     TRUE    CRAN  
 digest      0.6.31    0.6.35    TRUE    CRAN  
 sass        0.4.5     0.4.9     TRUE    CRAN  
 cachem      1.0.6     1.0.8     TRUE    CRAN  
 tinytex     0.44      0.50      TRUE    CRAN  
 htmltools   0.5.4     0.5.8.1   TRUE    CRAN  
 fontawesome 0.5.0     0.5.2     TRUE    CRAN  
 bslib       0.4.2     0.7.0     TRUE    CRAN  
 yaml        2.3.7     2.3.8     TRUE    CRAN  
 xfun        0.37      0.43      TRUE    CRAN  
 evaluate    0.21      0.23      TRUE    CRAN  
 processx    3.8.1     3.8.4     TRUE    CRAN  
 rstudioapi  0.15.0    0.16.0    TRUE    CRAN  
 rmarkdown   2.20      2.26      TRUE    CRAN  
 knitr       1.42      1.45      TRUE    CRAN  
 fs          1.6.2     1.6.3     TRUE    CRAN  
 callr       3.7.3     3.7.6     TRUE    CRAN  
 prettyunits 1.1.1     1.2.0     TRUE    CRAN  
 rematch     1.0.1     2.0.0     TRUE    CRAN  
 progress    1.2.2     1.2.3     TRUE    CRAN  
 vroom       1.6.1     1.6.5     TRUE    CRAN  
 textshaping 0.3.6     0.3.7     TRUE    CRAN  
 systemfonts 1.0.4     1.0.6     TRUE    CRAN  
 tidyr       1.3.0     1.3.1     TRUE    CRAN  
 timechange  0.2.0     0.3.0     TRUE    CRAN  
 readr       2.1.4     2.1.5     TRUE    CRAN  
 uuid        1.1-0     1.2-0     TRUE    CRAN  
 munsell     0.5.0     0.5.1     TRUE    CRAN  
 labeling    0.4.2     0.4.3     TRUE    CRAN  
 scales      1.2.1     1.3.0     TRUE    CRAN  
 gtable      0.3.3     0.3.4     TRUE    CRAN  
 data.table  1.14.8    1.15.4    TRUE    CRAN  
 DBI         1.1.3     1.2.2     TRUE    CRAN  
 blob        1.2.3     1.2.4     TRUE    CRAN  
 rvest       1.0.3     1.0.4     TRUE    CRAN  
 reprex      2.0.2     2.1.0     TRUE    CRAN  
 ragg        1.2.6     1.3.0     TRUE    CRAN  
 haven       2.5.3     2.5.4     TRUE    CRAN  
 ggplot2     3.4.4     3.5.0     TRUE    CRAN  
 dbplyr      2.4.0     2.5.0     TRUE    CRAN  

В дальнейшем использование оператора :: будет иногда использоваться, чтобы указать, из какого пакета взята функция.

Оператор :: полезен еще и в тех случаях, когда в разных пакетах присутствуют функции с одинаковым названием. Например, у основного пакета tidyverse, dplyr, есть функция filter(). Функция с точно таким же названием есть в базовом R в пакете stats, в котором та выполняет совершенно другую задачу. Если у вас уже загружен dplyr, то использование :: укажет на то, что вы хотите воспользоваться именно функцией filter() из пакета stats:

stats::filter(1:20, rep(1,3))
Time Series:
Start = 1 
End = 20 
Frequency = 1 
 [1] NA  6  9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 NA

Подобные путаницы могут возникнуть, если у вас загружено много пакетов, поэтому старайтесь не загружать слишком много пакетов, а если есть функции с одинаковым названием, то обязательно используйте оператор ::. Иначе слишком велик риск загрузить пакеты не в том порядке и получить из-за этого ошибку или некорректный результат.

Полезное: оператор :: для указания используемого пакета

В дальнейшем я буду иногда использовать ::, чтобы было понятно, из какого пакета взята та или иная функция

Выгрузить ненужный пакет можно с помощью функции detach().

detach(package:remotes)

5.6 Установка пакетов c Bioconductor

У биологов есть свой большой репозиторий, который является альтернативой CRAN, — Bioconductor. С него можно скачать множество специализированных пакетов для работы с биологическими данными.

Для установки пакетов с Bioconductor сначала нужно скачать пакет BiocManager с CRAN.

install.packages("BiocManager")

Теперь можно воспользоваться функцией install() из пакета BiocManager для установки пакета flowCore — пакета для анализа данных проточной цитометрии.

BiocManager::install("flowCore")

5.7 Установка пакетов с Github

Некоторых пакетов нет ни на CRAN, ни на Bioconductor. Обычно это касается пакетов, разработчики которых по каким-либо причинам решили не проходить проверки или не прошли проверки на строгие требования CRAN. Иногда бывает, что пакет был удален с CRAN (например, автор давно не занимается им) или же версия пакета на CRAN отстает от последней, а именно в ней реализованы так нужные вам функции. В некоторых случаях пакета может не быть на CRAN, потому что его разработчики активно занимаются его развитием и постоянно переделывают уже имеющийся функционал, добавляя новые возможности и удаляя старые. Это нужно делать с осторожностью, когда пакет уже выложен на CRAN, потому что если функции новой версии пакета будут работать по-другому, то это может вызвать массу проблем.

Во всех этих случаях пакет обычно можно скачать с репозитория Github. Для этого нам понадобится уже установленный (с CRAN, разумеется) пакет remotes1.

remotes::install_github("dracor-org/rdracor")

Теперь установленный пакет осталось загрузить, после чего им можно пользоваться.

library(rdracor)
godunov <- get_net_cooccur_igraph(corpus = "rus",
                                  play = "pushkin-boris-godunov")
plot(godunov)

Пакет remotes можно так же использовать для загрузки пакетов из Bioconductor:

remotes::install_bioc("flowCore")

5.8 Где искать нужные пакеты

Мы разобрались с тем, как устанавливать пакеты. А где же их находить?

Это вопрос гораздо более сложный чем может показаться. Например, можно работать в R и не знать, что существует пакет, который решает нужную для вас задачу. Или же найти такой пакет и не знать, что есть более современный пакет, который делает это еще лучше!

Здесь нет каких-то готовых решений. CRAN пытается создавать и поддерживать тематические списки (Task View) пакетов с описанием задач, которые они решают:

https://cran.r-project.org/web/views/

Безусловно, если вы глубоко занимаетесь какой-либо темой из списка, то стоит изучить соотвестствующий Task View, но начинать знакомство с помощью Task View достаточно тяжело.

Другой вариант — просто погуглить, найти релевантные статьи или книги. Внимательно смотрите на дату публикации: R — очень быстро развивающийся язык, поэтому с большой вероятностью то, что было написано пять лет назад уже потеряло актуальность. Нет, работать это будет, но, скорее всего, появился более удобный и продвинутый инструмент.


  1. пакет remotes “откололся” от более старого пакета devtools, а многие функции из remote просто скопированы из devtools. Разработчики devtools/remotes рекомендуют использовать для установки пакетов именно более легковесный remotes, но во многих случаях вы увидите код с devtools::install_github(). Оба варианта будут работать.↩︎