rownames(installed.packages(priority = "base"))
[1] "base" "compiler" "datasets" "graphics" "grDevices" "grid"
[7] "methods" "parallel" "splines" "stats" "stats4" "tcltk"
[13] "tools" "utils"
R — очень богатый язык с широкими возможностями. Однако очень скоро мы поймем, что этих возможностей нам не хватает. Эти возможности нам могут предоставить дополнительные пакеты (packages).
В большинстве случаев основным содержанием пакетов является набор дополнительных функций. Кроме функций, пакеты могут содержать наборы данных и новые структуры данных.
Обычно пакеты посвящены решению какого-то класса задач в определенной области. Например, есть множество пакетов для создания какого-то одного типа визуализации. Еще один пример — пакет beepr
, который содержит всего две функции: beep()
и beep_on_error()
для воспроизведения звукового сигнала. Это может быть удобно, если ваш скрипт работает долго, но вы хотите получить уведомление, когда его выполнение завершится.
Более крупные пакеты посвящены целому классу задач. Например, пакеты stringi
и stringr
посвящены работе со строками, значительно расширяя и делая более удобной работу со строковыми данными в R. Еще один пример: пакет igraph
для работы с графами (сетями). Этот пакет предоставляет дополнительный класс данных igraph
для хранения и работы с сетями.
Есть и совсем крупные пакеты, которые значительно расширяют базовый функционал R, изменяя основные принципы работы в нем. Это пакеты data.table
и tidyverse
. Это настолько крупные пакеты, что их даже называют отдельными диалектами R, потому что код, написанный с использованием этих пакетов, довольно сильно отличается от базового R. Кроме того, tidyverse - это не просто пакет, а целая экосистема пакетов, который взаимодополняют друг друга, но для удобства их можно устанавливать и загружать как один пакет tidyverse
. Еще один пример крупной экосистемы из пакетов — это пакеты mlr3
и tidymodels
для машинного обучения, который представляет собой большой расширяемый “пакет пакетов”, где отдельные пакеты посвящены отдельным этапам и задачам машинного обучения.
Вообще, даже сам R является набором из нескольких пакетов: основного base
и нескольких других, таких как stats
, utils
, graphics
. Вот их полный список:
rownames(installed.packages(priority = "base"))
[1] "base" "compiler" "datasets" "graphics" "grDevices" "grid"
[7] "methods" "parallel" "splines" "stats" "stats4" "tcltk"
[13] "tools" "utils"
Чтобы пользоваться этими пакетами ничего дополнительно делать не нужно.
Функция install.packages()
позволяет скачивать пакеты с Comprehensive R Archive Network (CRAN). На репозитории CRAN собрано более 19000 пакетов (число постоянно меняется, как в большую, так и меньшую сторону). Каждый из этих пакетов проходит проверку перед попаданием в CRAN: он должен быть хорошо задокументирован, стабильно работать и решать какую-то задачу.
Для примера установим пакет remotes
. Это пакет для удобной установки пакетов не с CRAN и скоро нам понадобится.
install.packages("remotes")
При установке вы увидите много непонятных надписей красным (или черным) шрифтом. Не пугайтесь, это нормально, происходит скачивание и установка пакетов. Скорее всего, если нигде нет слова Error, то пакет успешно установился.
Иногда установка бывает очень долгой, потому что большие пакеты склонны иметь много зависимостей: для работы какого-то пакета может понадобиться другие пакеты, а для тех пакетов - еще какие-то пакеты. Таким образом, устанавливая какой-нибудь современный пакет, вы, возможно, установите десятки других пакетов! Зато если они понадобятся сами по себе, то их уже не нужно будет устанавливать.
Установить пакет с помощью install.packages()
недостаточно, пакет нужно еще загрузить. Для этого есть функция library()
.
library("remotes")
В отличие от install.packages()
, функция library()
принимает название пакета и как строчку в кавычках, и как название без кавычек.
library(remotes)
Теперь функции, данные и классы из пакета доступны для работы.
::
Если пакетом нужно воспользоваться всего один-два раза, то имеет смысл не подключать весь пакет, а загрузить отдельную функцию из него. Для этого есть специальный оператор ::
, который использует функцию (указанную справа от ::
) из выбранного пакета (указанного слева от ::
), не загружая пакет полностью.
Для примера воспользуемся функцией package_deps()
из только что установленного пакета remotes
, которая возвращает все зависимости пакета:
::package_deps("tidyverse") remotes
Needs update -----------------------------
package installed available is_cran remote
tidyselect 1.2.0 1.2.1 TRUE CRAN
curl 5.2.0 5.2.1 TRUE CRAN
ps 1.7.5 1.7.6 TRUE CRAN
digest 0.6.31 0.6.35 TRUE CRAN
sass 0.4.5 0.4.9 TRUE CRAN
cachem 1.0.6 1.0.8 TRUE CRAN
tinytex 0.44 0.50 TRUE CRAN
htmltools 0.5.4 0.5.8.1 TRUE CRAN
fontawesome 0.5.0 0.5.2 TRUE CRAN
bslib 0.4.2 0.7.0 TRUE CRAN
yaml 2.3.7 2.3.8 TRUE CRAN
xfun 0.37 0.43 TRUE CRAN
evaluate 0.21 0.23 TRUE CRAN
processx 3.8.1 3.8.4 TRUE CRAN
rstudioapi 0.15.0 0.16.0 TRUE CRAN
rmarkdown 2.20 2.26 TRUE CRAN
knitr 1.42 1.45 TRUE CRAN
fs 1.6.2 1.6.3 TRUE CRAN
callr 3.7.3 3.7.6 TRUE CRAN
prettyunits 1.1.1 1.2.0 TRUE CRAN
rematch 1.0.1 2.0.0 TRUE CRAN
progress 1.2.2 1.2.3 TRUE CRAN
vroom 1.6.1 1.6.5 TRUE CRAN
textshaping 0.3.6 0.3.7 TRUE CRAN
systemfonts 1.0.4 1.0.6 TRUE CRAN
tidyr 1.3.0 1.3.1 TRUE CRAN
timechange 0.2.0 0.3.0 TRUE CRAN
readr 2.1.4 2.1.5 TRUE CRAN
uuid 1.1-0 1.2-0 TRUE CRAN
munsell 0.5.0 0.5.1 TRUE CRAN
labeling 0.4.2 0.4.3 TRUE CRAN
scales 1.2.1 1.3.0 TRUE CRAN
gtable 0.3.3 0.3.4 TRUE CRAN
data.table 1.14.8 1.15.4 TRUE CRAN
DBI 1.1.3 1.2.2 TRUE CRAN
blob 1.2.3 1.2.4 TRUE CRAN
rvest 1.0.3 1.0.4 TRUE CRAN
reprex 2.0.2 2.1.0 TRUE CRAN
ragg 1.2.6 1.3.0 TRUE CRAN
haven 2.5.3 2.5.4 TRUE CRAN
ggplot2 3.4.4 3.5.0 TRUE CRAN
dbplyr 2.4.0 2.5.0 TRUE CRAN
В дальнейшем использование оператора ::
будет иногда использоваться, чтобы указать, из какого пакета взята функция.
Оператор ::
полезен еще и в тех случаях, когда в разных пакетах присутствуют функции с одинаковым названием. Например, у основного пакета tidyverse, dplyr
, есть функция filter()
. Функция с точно таким же названием есть в базовом R в пакете stats
, в котором та выполняет совершенно другую задачу. Если у вас уже загружен dplyr
, то использование ::
укажет на то, что вы хотите воспользоваться именно функцией filter()
из пакета stats
:
::filter(1:20, rep(1,3)) stats
Time Series:
Start = 1
End = 20
Frequency = 1
[1] NA 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 NA
Подобные путаницы могут возникнуть, если у вас загружено много пакетов, поэтому старайтесь не загружать слишком много пакетов, а если есть функции с одинаковым названием, то обязательно используйте оператор ::
. Иначе слишком велик риск загрузить пакеты не в том порядке и получить из-за этого ошибку или некорректный результат.
Выгрузить ненужный пакет можно с помощью функции detach()
.
detach(package:remotes)
У биологов есть свой большой репозиторий, который является альтернативой CRAN, — Bioconductor. С него можно скачать множество специализированных пакетов для работы с биологическими данными.
Для установки пакетов с Bioconductor сначала нужно скачать пакет BiocManager
с CRAN.
install.packages("BiocManager")
Теперь можно воспользоваться функцией install()
из пакета BiocManager
для установки пакета flowCore
— пакета для анализа данных проточной цитометрии.
::install("flowCore") BiocManager
Некоторых пакетов нет ни на CRAN, ни на Bioconductor. Обычно это касается пакетов, разработчики которых по каким-либо причинам решили не проходить проверки или не прошли проверки на строгие требования CRAN. Иногда бывает, что пакет был удален с CRAN (например, автор давно не занимается им) или же версия пакета на CRAN отстает от последней, а именно в ней реализованы так нужные вам функции. В некоторых случаях пакета может не быть на CRAN, потому что его разработчики активно занимаются его развитием и постоянно переделывают уже имеющийся функционал, добавляя новые возможности и удаляя старые. Это нужно делать с осторожностью, когда пакет уже выложен на CRAN, потому что если функции новой версии пакета будут работать по-другому, то это может вызвать массу проблем.
Во всех этих случаях пакет обычно можно скачать с репозитория Github. Для этого нам понадобится уже установленный (с CRAN, разумеется) пакет remotes
1.
::install_github("dracor-org/rdracor") remotes
Теперь установленный пакет осталось загрузить, после чего им можно пользоваться.
library(rdracor)
<- get_net_cooccur_igraph(corpus = "rus",
godunov play = "pushkin-boris-godunov")
plot(godunov)
Пакет remotes
можно так же использовать для загрузки пакетов из Bioconductor:
::install_bioc("flowCore") remotes
Мы разобрались с тем, как устанавливать пакеты. А где же их находить?
Это вопрос гораздо более сложный чем может показаться. Например, можно работать в R и не знать, что существует пакет, который решает нужную для вас задачу. Или же найти такой пакет и не знать, что есть более современный пакет, который делает это еще лучше!
Здесь нет каких-то готовых решений. CRAN пытается создавать и поддерживать тематические списки (Task View) пакетов с описанием задач, которые они решают:
https://cran.r-project.org/web/views/
Безусловно, если вы глубоко занимаетесь какой-либо темой из списка, то стоит изучить соотвестствующий Task View, но начинать знакомство с помощью Task View достаточно тяжело.
Другой вариант — просто погуглить, найти релевантные статьи или книги. Внимательно смотрите на дату публикации: R — очень быстро развивающийся язык, поэтому с большой вероятностью то, что было написано пять лет назад уже потеряло актуальность. Нет, работать это будет, но, скорее всего, появился более удобный и продвинутый инструмент.
пакет remotes
“откололся” от более старого пакета devtools
, а многие функции из remote
просто скопированы из devtools
. Разработчики devtools
/remotes
рекомендуют использовать для установки пакетов именно более легковесный remotes
, но во многих случаях вы увидите код с devtools::install_github()
. Оба варианта будут работать.↩︎