Hajm 282 sahifalar
2017 yil
Сбор данных в Интернете на языке R
Kitob haqida
Всё, что регистрирует человек и созданные им машины, может считаться данными. Фиксируя новое и переводя архивы в цифровую форму, мы с каждым днём производим всё больше данных. Но гораздо чаще случается так, что данные разбросаны по всемирной сети на многочисленных страницах онлайновых магазинов, заметках в социальных сетях, логах серверов и т. п. Прежде чем начать работать с такими данными, их необходимо собрать и сохранить в пригодном для анализа виде. Решению этих вопросов и посвящена данная книга.
Основной материал книги разделён на две части. В первой части дано краткое введение в R – описание среды разработки, языка и основных пакетов-расширений. Вторая часть посвящена непосредственно сбору данных: работе с открытыми данными, извлечению данных из веб-страниц и из социальных сетей. Также рассмотрены необходимые технические вопросы: протокол HTTP, функции импорта данных различных форматов и регулярные выражения. Завершается рассказ созданием карт на основе собранных данных.
Издание предназначено специалистам по анализу данных, а также программистам, интересующихся сбором данных в Интернете.
Книга в концентрированном виде информация об извлечении данных преимущественно из сети Internet по средствам языка R. В самом начале книги идет отсылка к BI (Business Intelligence) не как значению «бизнес-анализ» в широком смысле слова, а к значению «бизнес-разведка». Значение слова «разведка» (Intelligence) следует рассматривать не столько как слежение за конкурентами, сколько как отслеживание собственных внутренних бизнес-процессов организации. Автор справедливо замечает, что сбор данных это основа для «data mining» в общем смысле данного определения.
Отличием книги является наличие в каждой главе списка литературы, откуда можно узнать более детальную информацию по темам главы.
Данную книгу не стоит считать «полным» руководством по сбору данных в интернете. Она скорее как базовый справочник по технологиям сбора с помощью R, поскольку в книге даны простые примеры по каждому пакету, чуть более сложные или спецефичные ситуации всё равно придётся гуглить на иностранных ресурсах, некоторые аспекты выгрузки вообще пропущенны, напр управление куками и их сохранение. Книга лишь позволит быстро сориентировать какой пакет стоит использовать.
Кстати из 280 стр только 180 относятся к сбору данных, первые 100 стр это рассказывание про синтаксис R, не очень понятно зачем они нужны, т.к человек интересующийся выгрузкой из сети с помощью R по определению уже знает синтаксис, раз задаётся такими прикладными вопросами. Эти 180 стр можно вдумчиво прочитать за 2 вечера.
В общем поставлю 4 из 5 и то из-за того что на русском и даёт быстрое представление о способах выгрузки, без гугления на иностранных ресурсах. Но объективно, по содержанию, это скорее 3 за 180 стр, особенно если по цене бумажного варианта(900 р)
Книга в своем роде уникальная. Аналогичную информацию можно найти только на английском, и то если знать что искать и приложить усилия. Пакеты httr, RCurl, rverse – достаточный набор для простенького парсинга, который может понадобиться человеку, работающему с данными.
Пакет для работы с данными мирового банка – подарок для ученых-социологов, экономистов и т.п. Намного удобнее, чем рыться в интернете.
Некоторые моменты в книге устарели, но разобраться труда не составит. Плюс примеры неудачно подобраны, для практики придется подбирать свои ссылки.
Только для опытных пользователей R, которым надо работать с сайтами.
Это не самоучитель для новичков. Если вы не знаете базовый синтаксис и пакет tidyverse, то лучше эту книгу не читать пока что
Не вполне согласен с Raniod’ом. Некоторые книги интересно читать, не зная основ. Язык R не изучают на каждом углу. Отсюда, книга – на крепкую четверку. Прочитаю – поставлю выше. Все, что относится к BI, нужно брать при реальном количестве полезной информации более 10% (выше ошибки опыта).
Полкниги воды, что за манера пошла у авторов утяжелить книгу водой? Дороже стоить будет? Нет примера выгрузки данных с сайтов под Java! Если этого нет, книга фуфло!
Izohlar, 5 izohlar5