Анализ больших наборов данных - PDF

Скачать полную версию книги "Анализ больших наборов данных - PDF"

Анализ больших наборов данных - Юре Лесковец
Эта книга написана ведущими специалистами в области технологий баз данных и веба. Благодаря популярности интернет-торговли появилось много чрезвычайно объемных баз данных, для извлечения информации из которых нужно применять методы добычи данных (data mining).

В книге описываются алгоритмы, которые реально использовались для решения важнейших задач добычи данных и могут быть с успехом применены даже к очень большим наборам данных. Изложение начинается с рассмотрения технологии MapReduce – важного средства распараллеливания алгоритмов. Излагаются алгоритмы хэширования с учетом близости и потоковой обработки данных, которые поступают слишком быстро для тщательного анализа. В последующих главах рассматривается идея показателя PageRank, нахождение частых предметных наборов и кластеризация. Во второе издание включен дополнительный материал о социальных сетях, машинном обучении и понижении размерности.

Издание будет в равной мере полезна студентам и программистам-практикам.

Данная книга представляет собой Стэнфордский курс о добыче данных в вебе (Web Mining) с акцентом на анализе данных очень большого объема. В книге принят алгоритмический подход: извлечение данных — это применение алгоритмов к данным, а не использование данных для «обучения» той или иной машины.
Основные рассматриваемые темы:
- распределенные файловые системы и технология распределения-редукции (map-reduce) как средство создания параллельных алгоритмов;
- поиск по сходству, в том числе MinHash и хэширование с учетом близости;
- обработка потоков данных и специализированные алгоритмы для работы с быстро поступающими данными;
- принципы работы поисковых систем, в том числе алгоритм Google Page-Rank, распознавание ссылочного спама и метод авторитетных и хаб-документов;
- частые предметные наборы, в том числе поиск ассоциативных правил, анализ корзины, алгоритм Apriori и его усовершенствованные варианты;
- алгоритмы кластеризации очень больших многомерных наборов данных;
- важные задачи: управление рекламой и рекомендательные системы;
- алгоритмы анализа структуры очень больших графов, в особенности графов социальных сетей;
- методы получения важных свойств большого набора данных с помощью понижения размерности;
- алгоритмы машинного обучения, применимые к очень большим наборам данных.


86
Просмотры
0
Лайкнули

Лицензии:

  • CC BY-NC-SA 3.0 PH
  • Ссылка автора не требуется

Поделиться в сетях

Информация о книге:

Комментарии (0) Добавить

Кликните на изображение чтобы обновить код, если он неразборчив
Комментариев пока нет. Ваш комментарий будет первым!