Книга «Spark для профессионалов: современные паттерны обработки больших данных». Книга spark


современные паттерны обработки больших данных» / Блог компании Издательский дом «Питер» / Хабр

Привет, Хаброжители! Ранее мы переводили статью «Знакомство с Apache Spark». Сейчас вы знакомим Вас с одноименной книгой, написанной Сэнди Ризай, Ури Лезерсоном, Шоном Оуэн, Джошем Уиллсом.

В этой практичной книге четверо специалистов Cloudera по анализу данных описывают самодостаточные паттерны для выполнения крупномасштабного анализа данных при помощи Spark. Авторы комплексно рассматривают Spark, статистические методы и множества данных, собранные в реальных условиях, и на этих примерах демонстрируют решения распространенных аналитических проблем.

Предисловие

С тех пор как мы начали в Беркли работу над проектом Spark, я стремился не просто создавать быстрые параллельные системы, но и помогать все новым и новым людям использовать крупномасштабные вычисления. Именно поэтому я так рад выходу этой книги, написанной четырьмя специалистами в области науки о данных и посвященной передовым методам аналитики с помощью Spark. Сэнди, Ури, Шон и Джош долгое время работали со Spark и составили замечательную подборку материалов, в равных долях содержащую теорию и примеры.

Больше всего в этой книге мне нравится ее ориентация на примеры, взятые из реальных приложений, работающих на реальных наборах данных. Непросто найти даже один пример, не говоря уже о десятке, охватывающий большие объемы данных, который вы могли бы запустить на своем ноутбуке. Однако авторам удалось создать подобную подборку и настроить все для запуска этих примеров на Spark. Более того, авторы описали в книге не только базовые алгоритмы, но и сложные нюансы подготовки данных и настройки модели, необходимые для достижения хороших результатов на практике. Вы сможете брать фрагменты из этих примеров и использовать их для решения собственных задач.

Обработка больших данных сегодня, несомненно, одна из наиболее захватывающих областей вычислительной техники, по-прежнему быстро развивающаяся и изобилующая новыми идеями. Я надеюсь, что наша книга поможет вам освоиться в этой захватывающей новой области.

Матей Захария, технический директор компании Databricks и вице-президент Apache Spark

Введение

Сэнди Риза Я не из тех, кто часто о чем-то сожалеет, но тот редкий момент лени в 2011 году, когда я искал способ наилучшего распределения сложных задач дискретной оптимизации между кластерами компьютеров, явно ничего хорошего не принес. Мой консультант рассказал мне об этом новомодном Spark, о котором он слышал, а я, по существу, отбросил эту идею как слишком хорошую, чтобы быть правдой, и поспешил вернуться к написанию диплома на получение степени бакалавра на MapReduce. С тех пор мы оба — Spark и я — несколько повзрослели, но лишь один из нас пережил стремительный взлет, говоря о котором, практически невозможно удержаться от каламбуров на тему возгорания1. Прошло два года, и стало совершенно ясно, что Spark заслуживает внимания.

Составляющие обширное генеалогическое древо предшественники Spark, начиная с MPI и заканчивая MapReduce, позволяют писать программы, использующие большие ресурсы, скрывая при этом мелкие подробности работы распределенных систем. Какие бы нужды обработки данных ни побуждали к разработке подобных фреймворков, в некоторой степени сфера больших данных стала настолько с ними связанной, что ее рамки определяются тем, что эти фреймворки могут обрабатывать. Spark обещает дальнейшую эволюцию: сделать написание распределенных программ подобным написанию программ обычных.

Spark отлично поднимает производительность конвейеров ETL и избавляет от головной боли, которая служит для программистов MapReduce причиной ежедневных отчаянных воззваний к богам Hadoop («Почему? Ну почему-у-у-у-у?»). Но для меня самым захватывающим в этом всегда было предоставление возможностей для системной аналитики. Благодаря парадигме, поддерживающей итеративные алгоритмы и диалоговый режим изучения, Spark наконец стал тем фреймворком с открытым исходным текстом, который позволил исследователям данных эффективно работать с большими наборами данных.

По моему мнению, лучше всего обучать науке о данных на примерах. С этой целью я и мои коллеги написали книгу, стараясь затронуть вопросы взаимосвязи между наиболее распространенными алгоритмами, наборами данных и паттернами проектирования в крупномасштабной аналитике. Эта книга не предназначена для прочтения от корки до корки. Пролистайте до страницы, где описывается то, что вы пытаетесь сделать, или то, что просто вас заинтересовало.

Что вы найдете в этой книге

Глава 1 покажет место Spark в более широком контексте науки о данных и аналитики больших данных. В дальнейшем каждая глава будет содержать самодостаточный пример анализа с помощью Spark. Глава 2 познакомит вас с основами обработки данных на Spark и Scala на примере очистки данных. Следующие несколько глав охватывают важнейшие темы машинного обучения с помощью Spark, включая некоторые из наиболее распространенных алгоритмов в приложениях, независимых от конечной реализации. Оставшиеся главы больше напоминают сборную солянку и демонстрируют применение Spark в несколько более экзотических приложениях, которые, например, выполняют запросы к «Википедии» через латентные семантические связи в тексте или анализируют геномные данные.

Использование примеров исходного кода

Дополнительные материалы (примеры исходного кода, упражнения и т. п.) доступны для скачивания по адресу. Эта книга призвана помочь выполнить вашу работу. В общем, если к ней прилагается пример кода, можете использовать его в своих программах и документации. Вам не требуется связываться с нами для получения разрешения, если только вы не копируете значительное количество кода. Например, написание программы, использующей несколько фрагментов кода из этой книги, не требует отдельного разрешения. Для продажи или распространения компакт-диска с примерами из книг издательства, конечно, разрешение требуется. Ответ на вопрос цитатой из этой книги, в том числе примеров кода, не требует разрешения. Включение значительного количества кода примеров из книги в документацию к вашему продукту разрешения требует.

» Более подробно с книгой можно ознакомиться на сайте издательства » Оглавление » Отрывок

Для Хаброжителей скидка 25% по купону — Spark.

habr.com

Книга "Spark" из жанра Любовно-фантастические романы

Последние комментарии

онлайн

 
 

Spark

Автор: Kemmerer Brigid Жанр: Любовно-фантастические романы Серия: Elemental #2 Язык: английский Год: 2012 Издатель: K-Teen ISBN: 9780758272829 Добавил: Admin 1 Окт 13 Проверила: Sveta 1 Окт 13 Формат:  FB2 (562 Kb)  RTF (591 Kb)  TXT (534 Kb)  HTML (548 Kb)  EPUB (740 Kb)  MOBI (1751 Kb)  

Рейтинг: 0.0/5 (Всего голосов: 0)

Аннотация

Gabriel Merrick plays with fire. Literally. Sometimes he can even control it. And sometimes he can't. Gabriel has always had his brothers to rely on, especially his twin, Nick. But when an arsonist starts wreaking havoc on their town, all the signs point to Gabriel. Only he's not doing it. And no one seems to believe him. Except a shy sophomore named Layne, a brainiac who dresses in turtlenecks and jeans and keeps him totally off balance. Because Layne has a few secrets of her own...

Объявления

Где купить?

Нравится книга? Поделись с друзьями!

Другие книги автора Kemmerer Brigid

Другие книги серии "Elemental"

Похожие книги

Комментарии к книге "Spark"

Комментарий не найдено
Чтобы оставить комментарий или поставить оценку книге Вам нужно зайти на сайт или зарегистрироваться
 

 

2011 - 2018

www.rulit.me

Читать онлайн электронную книгу Искра жизни Spark of Life - От переводчика бесплатно и без регистрации!

Дорогой Читатель! Книге, которую Ты с сомнением держишь в руках, в России досталась нелегкая судьба. Вначале были сорок лет опалы (написанная в 1952 году, она лишь в 1992 году впервые была опубликована на русском языке), причина которой заключается в том, что коммунизм в этом романе предстает если не большим, то во всяком случае не меньшим злом, чем фашизм. Затем, когда вчерашние гонители романа «Искра жизни» обернулись вдруг бизнесменами от литературы и принялись зарабатывать деньги на опальной книге, она с их легкой руки не раз побывала в застенках так называемых «переводчиков», полагающих, что искусство художественного перевода ограничивается одним лишь знанием иностранного языка (которым они, впрочем, тоже владеют весьма посредственно). Ремарка можно пытаться обвинять в чем угодно, но только не в косноязычии. Ни один «квалифицированный» русский читатель не поверит, что Эрих Мария Ремарк вдруг разучился писать и потому герои «Искры жизни», как и сам автор, дружно заговорили на каком-то странном, нелепом, корявом языке, а лаконичные, но яркие, выразительные картины природы, играющие огромную роль в произведениях Ремарка, сменила жалкая, беспомощная мазня дилетанта. Поистине больно смотреть, как упомянутые «переводчики» корчатся и извиваются в капканах подлинника, переводя слово за словом, и не могут вырваться на волю литературной нормы родного , т.е. великого русского языка... (Автор предлагаемого перевода вовсе не страдает манией величия и очень далек от уверенности в собственной непогрешимости, однако ему посчастливилось в свое время принимать участие в семинарах по переводу немецкоязычной художественной прозы при Ленинградском отделении Союза писателей СССР под руководством Инны Павловны Стребловой, одного из талантливейших и опытнейших переводчиков страны, и вовремя уяснить себе, что перевод — это все же искусство , требующее и таланта, и особой профессиональной подготовки. Кроме того, созданию данного перевода существенно благоприятствовали следующие обстоятельства: переводчику опять-таки посчастливилось до начала и в процессе работы не только побывать на горе Эттерсберг в городе Веймаре, где находится бывший концентрационный лагерь Бухенвальд, но и провести несколько месяцев в Оснабрюке, родном городе Ремарка, который он отчасти также описал в своем романе «Искра жизни»; и наконец знание множества реалий армейской жизни, языка военных команд и приказов, — не говоря уже о живой разговорной речи, бытующей в больших мужских коллективах, — которым переводчик обязан двухлетней действительной военной службе в бывшей Советской Армии, тоже сыграло важную роль в работе над переводом.)

Третья беда этой многострадальной книги заключается в самой теме: действие романа происходит в фашистском концентрационном лагере Меллерн (на самом деле Ремарк описал Бухенвальд, изменив название лагеря), и, поняв это с первых же строк, русский читатель, смертельно уставший за последние годы от искусства разоблачительного, обличающего, от беспросветного мрака постперестроечных будней и жаждущий света, к сожалению, отказывается от знакомства с этой важной и по-прежнему актуальной книгой. Но это не роман ужасов, не «триллер», слепленный на потребу сытому, рыгающему «племени младому, незнакомому». Это горестная, но мудрая книга о жизни и смерти, о Добре и Зле, о том, как легко и быстро добропорядочные, опрятные служащие, скромные чиновники, студенты и коммерсанты, мясники и булочники превращаются в профессиональных убийц, о том, как прекрасно это ремесло может сочетаться с любовью к музыке, хорошими манерами и образцовой семейной жизнью.

Одна из главных сюжетных линий романа — личная жизнь коменданта лагеря, оберштурмбаннфюрера СС Бруно Нойбауера, его семейные неурядицы, материальные заботы, его мысли и чувства перед лицом надвигающегося возмездия. Картины лагерной действительности перемежаются занятнейшими, порой комичными сценами «гражданской» жизни властелина над жизнью и смертью. Таким образом русский читатель получает редкую возможность увидеть эту, казалось бы, до боли знакомую сторону немецкого фашизма в новом ракурсе, через призму личных переживаний «сверхчеловеков».

Что же касается «мрачности» темы, то, во-первых, все же не следует забывать о том, что искусству часто приходится быть скорее горькой пилюлей, необходимой для нашего духовного здоровья, нежели сладкой конфетой; что еще древние открыли «очищающую силу трагедии», а во-вторых, несмотря на тяжелые картины, предстающие перед читателем, роман «Искра жизни» — книга жизнеутверждающая ; это явствует уже из самого названия. Автор мудро ведет нас через это чистилище к новому пониманию жизни: не «давит» слезу из нас, не всхлипывает сам, а с трудом сохраняя «беспристрастность», «нейтралитет», и даже находя в себе силы для горькой иронии или мрачного юмора, умело направляет наши мысли и чувства в нужное русло и заставляет перед лицом смерти по-новому взглянуть на жизнь.

librebook.me

Книга "Spark" из серии Elemental 2

Последние комментарии

онлайн

 
 

Spark

Автор: Kemmerer Brigid Жанр: Любовно-фантастические романы Серия: Elemental #2 Язык: английский Год: 2012 Издатель: K-Teen ISBN: 9780758272829 Добавил: Admin 1 Окт 13 Проверила: Sveta 1 Окт 13 Формат:  FB2 (562 Kb)  RTF (591 Kb)  TXT (534 Kb)  HTML (548 Kb)  EPUB (740 Kb)  MOBI (1751 Kb)  

Рейтинг: 0.0/5 (Всего голосов: 0)

Аннотация

Gabriel Merrick plays with fire. Literally. Sometimes he can even control it. And sometimes he can't. Gabriel has always had his brothers to rely on, especially his twin, Nick. But when an arsonist starts wreaking havoc on their town, all the signs point to Gabriel. Only he's not doing it. And no one seems to believe him. Except a shy sophomore named Layne, a brainiac who dresses in turtlenecks and jeans and keeps him totally off balance. Because Layne has a few secrets of her own...

Объявления

Где купить?

Нравится книга? Поделись с друзьями!

Другие книги автора Kemmerer Brigid

Другие книги серии "Elemental"

Похожие книги

Комментарии к книге "Spark"

Комментарий не найдено
Чтобы оставить комментарий или поставить оценку книге Вам нужно зайти на сайт или зарегистрироваться
 

 

2011 - 2018

www.rulit.me

Книга "Spark" из жанра Детективы

Последние комментарии

Советско-вьетнамский роман

В аннотации написано, что это книга о войне. Но и о любви там тоже есть немало. Мне, как женщине, интереснее читать про любовь молодого офицера. Как у Толстого в "Войне и мире", девочки читают о мире, мальчики

Провинциалка для сноба

 Обычная офисная тема,он начальник,она подчинённая,интриги,соперник,куда без него,без ревности никак,прочитала с удовольствием,подача автора понравилась.

онлайн

Одержимые

Даже не пойму,понравилась ли мне она...но перечитывать ещё раз не хочеться

Искусная ложь

не плохо написанный роман...хотя не верилось, что вообще между Ггероями могли быть какие-либо отношения..но прочитала с удовольствием.

Чтобы помнить (СИ)

Книга понравилась. Спасибо автору. Хорошо написано, прочла не отрываясь

www.rulit.me

современные паттерны обработки больших данных»

Привет, Хаброжители! Ранее мы переводили статью «Знакомство с Apache Spark». Сейчас вы знакомим Вас с одноименной книгой, написанной Сэнди Ризай, Ури Лезерсоном, Шоном Оуэн, Джошем Уиллсом.

В этой практичной книге четверо специалистов Cloudera по анализу данных описывают самодостаточные паттерны для выполнения крупномасштабного анализа данных при помощи Spark. Авторы комплексно рассматривают Spark, статистические методы и множества данных, собранные в реальных условиях, и на этих примерах демонстрируют решения распространенных аналитических проблем.

Предисловие

С тех пор как мы начали в Беркли работу над проектом Spark, я стремился не просто создавать быстрые параллельные системы, но и помогать все новым и новым людям использовать крупномасштабные вычисления. Именно поэтому я так рад выходу этой книги, написанной четырьмя специалистами в области науки о данных и посвященной передовым методам аналитики с помощью Spark. Сэнди, Ури, Шон и Джош долгое время работали со Spark и составили замечательную подборку материалов, в равных долях содержащую теорию и примеры.

Больше всего в этой книге мне нравится ее ориентация на примеры, взятые из реальных приложений, работающих на реальных наборах данных. Непросто найти даже один пример, не говоря уже о десятке, охватывающий большие объемы данных, который вы могли бы запустить на своем ноутбуке. Однако авторам удалось создать подобную подборку и настроить все для запуска этих примеров на Spark. Более того, авторы описали в книге не только базовые алгоритмы, но и сложные нюансы подготовки данных и настройки модели, необходимые для достижения хороших результатов на практике. Вы сможете брать фрагменты из этих примеров и использовать их для решения собственных задач.

Обработка больших данных сегодня, несомненно, одна из наиболее захватывающих областей вычислительной техники, по-прежнему быстро развивающаяся и изобилующая новыми идеями. Я надеюсь, что наша книга поможет вам освоиться в этой захватывающей новой области.

Матей Захария,технический директор компанииDatabricks и вице-президент Apache Spark

Введение

Сэнди РизаЯ не из тех, кто часто о чем-то сожалеет, но тот редкий момент лени в 2011 году, когда я искал способ наилучшего распределения сложных задач дискретной оптимизации между кластерами компьютеров, явно ничего хорошего не принес. Мой консультант рассказал мне об этом новомодном Spark, о котором он слышал, а я, по существу, отбросил эту идею как слишком хорошую, чтобы быть правдой, и поспешил вернуться к написанию диплома на получение степени бакалавра на MapReduce. С тех пор мы оба — Spark и я — несколько повзрослели, но лишь один из нас пережил стремительный взлет, говоря о котором, практически невозможно удержаться от каламбуров на тему возгорания1. Прошло два года, и стало совершенно ясно, что Spark заслуживает внимания.

Составляющие обширное генеалогическое древо предшественники Spark, начиная с MPI и заканчивая MapReduce, позволяют писать программы, использующие большие ресурсы, скрывая при этом мелкие подробности работы распределенных систем. Какие бы нужды обработки данных ни побуждали к разработке подобных фреймворков, в некоторой степени сфера больших данных стала настолько с ними связанной, что ее рамки определяются тем, что эти фреймворки могут обрабатывать. Spark обещает дальнейшую эволюцию: сделать написание распределенных программ подобным написанию программ обычных.

Spark отлично поднимает производительность конвейеров ETL и избавляет от головной боли, которая служит для программистов MapReduce причиной ежедневных отчаянных воззваний к богам Hadoop («Почему? Ну почему-у-у-у-у?»). Но для меня самым захватывающим в этом всегда было предоставление возможностей для системной аналитики. Благодаря парадигме, поддерживающей итеративные алгоритмы и диалоговый режим изучения, Spark наконец стал тем фреймворком с открытым исходным текстом, который позволил исследователям данных эффективно работать с большими наборами данных.

По моему мнению, лучше всего обучать науке о данных на примерах. С этой целью я и мои коллеги написали книгу, стараясь затронуть вопросы взаимосвязи между наиболее распространенными алгоритмами, наборами данных и паттернами проектирования в крупномасштабной аналитике. Эта книга не предназначена для прочтения от корки до корки. Пролистайте до страницы, где описывается то, что вы пытаетесь сделать, или то, что просто вас заинтересовало.

Что вы найдете в этой книге

Глава 1 покажет место Spark в более широком контексте науки о данных и аналитики больших данных. В дальнейшем каждая глава будет содержать самодостаточный пример анализа с помощью Spark. Глава 2 познакомит вас с основами обработки данных на Spark и Scala на примере очистки данных. Следующие несколько глав охватывают важнейшие темы машинного обучения с помощью Spark, включая некоторые из наиболее распространенных алгоритмов в приложениях, независимых от конечной реализации. Оставшиеся главы больше напоминают сборную солянку и демонстрируют применение Spark в несколько более экзотических приложениях, которые, например, выполняют запросы к «Википедии» через латентные семантические связи в тексте или анализируют геномные данные.

Использование примеров исходного кода

Дополнительные материалы (примеры исходного кода, упражнения и т. п.) доступны для скачивания по адресу. Эта книга призвана помочь выполнить вашу работу. В общем, если к ней прилагается пример кода, можете использовать его в своих программах и документации. Вам не требуется связываться с нами для получения разрешения, если только вы не копируете значительное количество кода. Например, написание программы, использующей несколько фрагментов кода из этой книги, не требует отдельного разрешения. Для продажи или распространения компакт-диска с примерами из книг издательства, конечно, разрешение требуется. Ответ на вопрос цитатой из этой книги, в том числе примеров кода, не требует разрешения. Включение значительного количества кода примеров из книги в документацию к вашему продукту разрешения требует.

» Более подробно с книгой можно ознакомиться на сайте издательства» Оглавление» Отрывок

Для Хаброжителей скидка 25% по купону — Spark. По факту оплаты бумажной книги отправляем на e-mail электронную версию книги.

Автор: Издательский дом «Питер»

Источник

www.pvsm.ru

Изучаем Spark. Молниеносный анализ данных. - Программирование - Учебники

Изучаем Spark. Молниеносный анализ данных.

Авторы - Холден Карау, Энди Конвински, Патрик Вендел, Матей Захария

По мере вхождения в обиход анализа данных специалисты-практики во многих областях искали все более простые инструменты для решения этой задачи. Apache Spark быстро завоевал популярность как инструмент, расширяющий и обобщающий модель MapReduce. Фреймворк Spark имеет три основных преимущества. Во-первых, простота в использовании - с его помощью можно создавать приложения на ноутбуке, используя высокоуровневый API, который позволяет сконцентрироваться на предметной стороне вычислений. Во-вторых, высокая скорость работы, что дает возможность создавать интерактивные приложения и использовать сложные алгоритмы. И в-третьих, обобщенность, позволяющая объединять разнотипные вычисления (например, выполнять SQL-запросы, обрабатывать текст и реализовывать алгоритмы машинного обучения (machine learning)), для чего прежде необходимо было применять разрозненные инструменты. Все это делает Spark отличной отправной точкой на пути изучения аспектов обработки «больших данных» (Big Data).

Книга "Изучаем Spark: Молниеносный анализ данных", написанная Холденом Карау, Энди Конвински, Патриком Венделом и Матеем Захарией, является вводным руководством по Spark, целью которого является помочь вам быстро настроить Spark и приступить к работе с ним. Здесь вы узнаете, как загрузить и запустить Spark на своем ноутбуке, как работать с ним в интерактивном режиме, чтобы поближе познакомиться с API. Затем рассматриваются особенности доступных операций и распределенных вычислений. В заключение совершается экскурс по высокоуровневым библиотекам, входящим в состав Spark, включая библиотеки для машинного обучения, потоковой обработки данных (stream processing) и SQL. Авторы надеются, что с этой книгой вы быстро сможете приступить к решению задач, связанных с анализом данных, как на одной, так и на сотнях машин.

Данная книга адресована главным образом специалистам в области анализа данных (или исследователям) и инженерам-программистам.

Издательство – ДМК-Пресс

Год издания – 2015

Формат книги - PDF

Размер - 51,5 Мб

СКАЧАТЬ с depositfiles.com

Любители печатных изданий могут заказать бумажный экземпляр этой же книги здесь:

it-ebooks.ru