Компьютерное зрение. Современный подход | Форсайт Дэвид, Понс Жан. Книги компьютерное зрение


С чего начать изучение компьютерного зрения? — Toster.ru

Доброго времени суток)

Попробовав себя в популярных областях программирования и разработки, я понял, что мне это все не нравится. Вообще нет желания даже связываться с этим всем. Пробовал я на очень примитивном уровне, так как только только закончил 11 класс и знания мои желают лучшего. Но и малого соприкосновения мне хватило, чтобы понять: это не мое.

А интересно мне вот что:

0. Data mining1. Компьютерное зрение2. Нейросети и системы принятия решений4. Системы анализа вероятностей и предсказание процессов.

Список я бессовестно скомуниздил позаимствовал у нашего любимого тостера, предварительно погуглив, что представляет каждое направление и "вычеркнув" не представляющие интереса)

К слову поступил я на математическое направление и программирования будет очень и очень мало.

Как выбрать что-то одно, когда все интересно? Но это довольно риторический вопрос, зависящий от личных предпочтений, и я это понимаю. Поэтому мне хотелось бы начать с компьютерного зрения. Среди умений в вакансиях постоянно встречается примерно вот такой список:

Математическая подготовка:основы линейной алгебрыаналитической геометриитеория вероятностейАлгоритмическая подготовка:знание базовых алгоритмов (сортировка, поиск...) и алгоритмов 3D графики и компьютерного зренияанализ эффективности алгоритмовзнание Python и C++технический английский

В этом списке мне ясно все. кроме

  • знание базовых алгоритмов (сортировка, поиск...) и алгоритмов 3D графики и компьютерного
  • анализ эффективности алгоритмов
Математику - буду ботать в вузе, английский это само собой, python и С++ буду учить сам (рассчитываю года за 3 научиться хоть немного писать на этих ЯП).

И вот наконец-таки сам вопрос.

Посоветуйте, что почитать по данной тематике. Книги есть, но боюсь ошибиться и выбрать какой-нибудь старый и неактуальный сухой справочник. Опыт в выборе самого ужасного материала у меня к сожалению есть. Готов читать любые книги: по математике, анализу, самой технологии компьютерного зрения. И практически упражняться тоже.

С чего начать, чем продолжить? К слову по С++ занимаюсь по книге Прата, Python постигать буду с Лутцем.

Ну и напоследок: будет ли актуально это направление ближайшие годы до конца отложенных мне дней или все мои желания зря?

Спасибо, если прочитали сей длинный и нудный рассказ)

toster.ru

Практическое введение в компьютерное зрение

как научить компьютер читать

Итак, вы поддались веянию времени и задумали освоить компьютерное зрение. Спешу вас разочаровать – до вечера не управитесь. Однако, примерно представить себе что это вообще такое и с какой стороны подходить к изучению, пожалуй, сможете.

Компьютерное зрение (иногда его величают машинным) – это набор технологий и алгоритмов из уймы связанных и не очень областей объединенных одной целью – научить бездушный компьютер обозревать окружающую действительность с некоторой долей оразумения. Для того чтобы компьютер смог распознать на фотографии любимую бабушку Агафью Петровну, вам необходимо освоить всего навсего: методы машинного обучения, основы обработки изображений, принципы распараллеливания вычислений, немного математики – линейную алгебру, геометрия, дифуры и тервер (для верности можно добавить к списку оптику, физику и теорию обработки сигналов). Да, самое время опускать руки (и разминать голову).

На практике, вот это все разом необходимо далеко не всегда, так как зачастую небольшие упрощения позволяют махом отбросить большую часть сложностей (или добавить еще). Однако, для того чтобы осознанно использовать алгоритмы компьютерного зрения для конкретных практических задач – крайне желательно ориентироваться в плюсах-минусах методов и быть в курсе “state of the art” – последних исследований.

компьютерное зрение – сплав многих наук

Эдакий массивный кус знаний не так-то просто переварить, а потому, в этой статье я попытался сгруппировать набор ссылок на всякие полезности для планомерного изучения темы. Данные заметки ни в коем случае на претендуют на всеобъемлемость представленной информации, однако могут послужить кратким справочником и отправной точкой для детального изучения, именно с точки зрения наискорейшего практического применения.

Вся информация разбита на несколько статей-лекций, где вся информация ужата на полтораста строк по каждой теме. Да, именно так будем давить на лень. Для того, чтобы вкратце обозначить основные принципы, актуальные сейчас методы компьютерного зрения и располезные ссылки – этого более чем достаточно. Желающим более фундаментальных и эпичных по объемам манускриптов – милости просим в конец данной статьи, в подраздел используемые материалы (в каждой статье ссылки тоже водятся в изобилии, но, как правило, они сугубо по упомянутой теме).

В качестве ободрения для тех, кому данная предметная область не очень близка – теория компьютерного зрения пестрит каким-то неимоверным числом специальных терминов из математики, которые очень эффективно отпугивают кажущимся уровнем сложности. Не принимайте близко к сердцу – страшные на слух слова оказываются элементарными для понимания.

Компьютерное зрение – практическое введение:

01 – изображение в компьютерном зрении02 – (пред)обработка изображений03 – features – локальные особенности – за что зацепиться взгляду 04 – поиск преобразования между особыми точками и немного моделирования 05 – машинное обучение для классификации изображений

Использованные материалы

Видео-лекции

на русском:Видео-лекции спецкурсов ВМК МГУ “Введение в компьютерное зрение” и “Дополнительные главы компьютерного зрения”, за авторством Антона Конушина (Anton Konushin):http://www.lektorium.tv/course/?id=22847 – первая часть на лекториуме.http://www.youtube.com/playlist?list=PLbwKcm5vdiSYTm87ntDsYrksE4OfngSzY – все части на ютубе.все прекрасно смотрится на удвоенной скорости.http://moodle.graphicon.ru/course/view.php?id=4 – Вспомогательные материалы по курсам.http://www.slideshare.net/ktoshik – презенташки к лекциям можно найти там.UPDATE 23.11.2013http://habrahabr.ru/company/yandex/blog/203136/– лекции Яндекса по компьютерному зрениюhttps://sites.google.com/site/cvnnsu/materialy-lekcij – материалы спец-курса “Компьютерное зрение” ННГУ им Н.И. Лобачевского

на английском:Курс “Введения в компьютерное зрение” университета Флориды от профессора Dr. Mubarak Shah – тынц. Ооочень разжевано.Курс “Цифровая обработка изображений” Харагпурского университета (Индия) – детально и математично разжеваны основные методы низкоуровневой обработки – http://freevideolectures.com/Course/2316/Digital-Image-Processing-IIT-KharagpurНейронные сети – http://nptel.iitm.ac.in/video.php?subjectId=117105084Математические основы компьютерного зрения на курсере от Prof. Malik – тут.Видео по использованию OpenCV для конкретных задач – http://www.youtube.com/user/18F4550videos

Литература:Компьютерное зрение Шапиро, Стокман – основательная, относительно современная и единственная, мне известная, годная книга по данной теме на русском.

Фундаментальные труды, доступные для свободного скачивания:

http://szeliski.org/Book/ – Computer Vision: Algorithms and Applications – Richard Szeliski, Microsoft Research

http://www.computervisionmodels.com/ – Computer Vision: Models, Learning, and Inference Simon J.D. Prince

http://programmingcomputervision.com/ – Programming Computer Vision with Python by Jan Erik Solem

_Официально_, доступных для скачивания не видел, но тоже заслуживают внимания:Digital Image Processing – Rafael C. Gonzalez Richard E. WoodsComputer Vision: A Modern Approach – ForsythIntroduction to Machine Learning – Alpaydin

Библиотеки содержащие алгоритмы компьютерного зрения

http://opencv.org/ – первое, что приходит на ум в качестве общедоступного инструментария для погружения в предметную область. Часть алгоритмов перенесена на GPU. С учетом наличия готовых рецептов использования (книги на амазоне\в интернетах – Learning OpenCV, Mastering OpenCV) – идеальна для новичков.http://www.vlfeat.org/ – алгоритмы компьютерного зрения на чистом C, есть интерфейсы для матлаба.http://www.simplecv.org/ – библиотека на c/c++ построенная поверх OpenCV, основная цель проекта – предоставить упрощенный интерфейс ко всем алгоритмам. Есть готовое пособие для тех, кто совсем не в теме – “Practical Computer Vision with SimpleCV”.http://intopii.com/ – большущий фреймворк на c++ для машинного обучения и анализа изображений, есть javacript’овый апи.ViSP – c++ библиотека с алгоритмами компьютерного зрения (преимущественно в области отслеживания-треккинга и наблюдение)SHARK – Machine learning library – C++ библиотека алгоритмов машинного обучения, выгодно отличается от альтернатив наличием больше нигде не реализованных алгоритмовOpenVIDIA : Parallel GPU Computer Vision – алгоритмы компьютерного зрения на GPU (CUDA)http://scikit-learn.org – методы машинного обучения на питонеhttp://cs.unc.edu/~ccwu/siftgpu/ – имплементация алгоритма SIFT на gpu.MATLAB (toolbox + sample) – наверное, самый простой (и затратный) способ попробовать алгоритмы компьютерного зрения:http://www.mathworks.com/products/image/http://www.mathworks.com/products/computer-vision/

Материалы по теме:

http://courses.graphicon.ru/ – учебные материалы (на русском) по курсам Обработки изображений и Компьютерного зренияпрезентации по библиотеке OpenCVКурс лекций по компьютерному зрению от курсеры – https://www.coursera.org/course/computervision (на момент публикации не активен)Запись выступлений с конференции по компьютерному зрению 2012 года Франция

Материалы англоязычных курсов от ведущих вузов по компьютерному зрению:CSE/EE486 Computer Vision ICS395T: Visual Recognition6.870 Grounding Object Recognition and Scene Understanding(гуглить по этим названиям и искать полезные крупицы знания)Washington CSE 576 (Graduate Computer Vision)Trevor Darrell’s CS 280 Computer Vision class at BerkeleyAntonio Torralba’s 6.869 Advances in Computer Vision class at MITMichael Black’s CS 143 Introduction to Computer Vision class at BrownKristen Grauman’s CS 378 Computer Vision class at UT AustinAlyosha Efros’ 15-463 Computational Photography16-721 Learning-Based Methods in Vision classes at Carnegie MellonPascal Fua’s CS-442 Introduction to Computer Vision class at EPFL

http://visionserver.lems.brown.edu/engn2910x/lectures.php – лекции в pdf формате

http://homepages.inf.ed.ac.uk/rbf/CVonline/ – структурированная и необъятная информация по компьютерному зрению

Библиографии по компьютерному зрению:http://forums.udacity.com/questions/1033058/free-book-computer-vision-models-learning-and-inferencehttp://www.compvision.ru/wiki/http://www.computervisiononline.com/books

http://www.cvpapers.com/rr.html – пространный список библиотек, с реализованными методами компьютерного зрения (computer vision algorithm implementation)http://www.kernel-machines.org/software – список библиотек с алгоритмами машинного обучения, применимых для задач компьютерного зрения

my-it-notes.com

Компьютерное зрение | Шапиро Л., Стокман Дж.

Автор: Шапиро Л., Стокман Дж.

Год: 2009

Издательство: Бином. Лаборатория знаний

Формат: DjVu

Качество: Электронная книга

Количество страниц: 763

Содержание статьи:

Описание

В данной книге теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике.

Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.

Предисловие редактора перевода

Предисловие к русскому изданию

Предисловие

Замечания относительно языка программирования

Варианты работы с книгой

Глава 1. Введение

1.1. Могут ли машины видеть?1.2. Прикладные задачи1.2.1. Предварительное рассмотрение структуры цифрового изображения 1.2.2. Поиск в базе данных изображений1.2.3. Контроль отверстий в поперечных балках1.2.4. Контроль медицинских изображений головы человека1.2.5. Обработка сканированных страниц текста1.2.6. Оценка снежного покрова по спутниковым изображениям 1.2.7. Анализ сцен, содержащих детали промышленного производства 1.3. Операции обработки изображений1.3.1. Модификация пикселов в малых окрестностях1.3.2. Глобальное улучшение качества изображения1.3.3. Комбинация нескольких изображений1.3.4. Вычисление характерных признаков изображения1.3.5. Формирование неграфических описаний1.4. Успехи, сложности и неудачи компьютерного зрения1.5. Применение компьютеров и программного обеспечения1.6. Смежные области1.7. Структура оставшейся части книги1.8. Литература1.9. Дополнительные упражнения

Глава 2. Формирование и представление изображений

2.1. Восприятие света2.2. Устройства для формирования изображений2.2.1. Камеры на основе ПЗС2.2.2. Формирование изображения2.2.3. Видеокамеры2.2.4. Человеческий глаз2.3. Проблемы формирования цифровых изображений2.3.1. Геометрические искажения2.3.2. Дисперсия2.3.3. Блюминг (избыточная яркость)2.3.4. Неоднородности ПЗС-матрицы2.3.5. Отсечение и циклический возврат2.3.6. Хроматическая дисторсия2.3.7. Эффекты дискретизации2.4. Функции интенсивности и цифровые изображения2.4.1. Типы изображений2.4.2. Дискретизация изображений и пространственные измерения2.5. Форматы цифровых изображений2.5.1. Заголовок файла изображения2.5.2. Данные изображения2.5.3. Сжатие данных2.5.4. Часто используемые форматы2.5.5. Групповое кодирование бинарных изображений2.5.6. Формат PGM: Portable Gray Map2.5.7. Формат файлов изображений GIF2.5.8. Формат файлов изображений TIFF2.5.9. Формат JPEG для хранения фотографий2.5.10. Язык PostScript2.5.11. Файловый формат MPEG для хранения видеоданных2.5.12. Сравнение форматов файлов изображений2.6. Особенности и проблемы получения изображений естественных сцен .2.7. Оценка пространственных свойств объектов по двумерным изображениям2.8. Пять систем координат2.8.1. Пиксельная система координат I2.8.2. Система координат объекта О2.8.3. Система координат камеры С2.8.4. Действительная система координат изображения F2.8.5. Мировая система координат W2.9. Другие типы датчиков*2.9.1. Микроденситометр*2.9.2. Цветные и мультиспектральные изображения*2.9.3. Рентгеновские изображения*2.9.4. Получение изображений методом ядерного магнитного резонанса (ЯМР)*2.9.5. Дальномеры и дальнометрические изображения*2.10. Литература

Глава 3. Анализ бинарных изображений

3.1. Пикселы и окрестности пикселов3.2. Применение масок к изображениям3.3. Подсчет объектов на изображении3.4. Маркировка связных компонент3.5. Морфология бинарных изображений3.5.1. Структурирующие элементы3.5.2. Основные операции3.5.3. Некоторые приложения бинарной морфологии3.5.4. Условное наращивание3.6. Свойства областей3.7. Графы смежности областей бинарного изображения3.8. Пороговая бинаризация полутоновых изображений3.8.1. Выбор порога бинаризации по гистограмме3.8.2. Автоматический выбор порога бинаризации: метод Оцу*3.9. Литература

Глава 4. Основные понятия распознавания образов

4.1. Задачи распознавания образов4.2. Общая модель классификации4.2.1. Классы4.2.2. Датчик/преобразователь4.2.3. Экстрактор характерных признаков4.2.4. Классификатор4.2.5. Построение системы классификации4.2.6. Оценка ошибок системы4.2.7. Ложные срабатывания и ложные пропуски4.3. Взаимосвязь точности системы и полноты выборки4.4. Признаки, используемые для описания объектов4.5. Представление объектов в виде векторов признаков4.6. Реализация классификатора4.6.1. Классификация по ближайшему среднему значению4.6.2. Классификация по расстоянию до ближайших соседей4.7. Структурные методы распознавания4.8. Матрица неточностей4.9. Деревья решений4.10. Байесовский подход к принятию решений4.10.1. Параметрические модели распределений4.11. Принятие решений при обработке многомерных данных4.12. Самообучающиеся машины4.13. Искусственные нейронные сети*4.13.1. Персептрон4.13.2. Многослойная сеть прямого распространения4.14. Литература

Глава 5. Фильтрация и улучшение изображений

5.1. Что необходимо сделать с изображением?5.1.1. Повышение качества изображений5.1.2. Обнаружение низкоуровневых признаков5.2. Изменение тонового распределения5.2.1. Выравнивание гистограммы5.3. Удаление малых областей изображения5.3.1. Удаление шума «соль и перец»5.3.2. Удаление малых компонент5.4. Сглаживание изображения5.5. Медианная фильтрация5.5.1. Вычисление выходного изображения по данным входного изображения5.6. Обнаружение краев с помощью дифференциальных масок5.6.1. Дифференцирование одномерных сигналов5.6.2. Дифференциальные операторы для двумерных изображений5.7. Гауссовская фильтрация и ЛОГ-фильтрация для обнаружения краев5.7.1. Обнаружение краев с помощью ЛОГ-фильтра5.7.2. Обнаружение краев в зрительной системе человека5.7.3. Теория Марра—Хилдрет5.8. Детектор краев Кэнни5.9. Использование масок в качестве согласованных фильтров*5.9.1. Векторное пространство всех сигналов, заданных в виде n дискретных значений 5.9.2. Использование ортогонального базиса5.9.3. Неравенство Коши—Шварца5.9.4. Векторное пространство изображений размерами m х n5.9.5. Базис Робертса для окрестностей 2x25.9.6. Базис Фрея—Чена для окрестностей 3x3 5.10. Свертка и кросс-корреляция*5.10.1. Определение операций посредством масок5.10.2. Операция свертки5.10.3. Возможности параллельной реализации5.11. Анализ пространственных частот с использованием гармонических функций*5.11.1. Базис Фурье5.11.2. Двумерные функции интенсивности5.11.3. Дискретное преобразование Фурье5.11.4. Полоснопропускающая фильтрация5.11.5. Обсуждение преобразования Фурье5.11.6. Теорема о свертке*5.12. Итоги и обсуждение5.13. Литература

Глава 6. Цвет и освещенность

6.1. Физические свойства цвета6.1.1. Восприятие освещенных объектов6.1.2. Дополнительные факторы6.1.3. Чувствительность рецепторов6.2. Цветовая система RGB6.3. Другие цветовые системы6.3.1. Субтрактивная цветовая система CMY6.3.2. Цветовая система HSI: Тон-Насыщенность-Интенсивность (Hue-Saturation-Intensity)6.3.3. Телевизионные цветовые системы YIQ и YUV6.3.4. Классификация с использованием цветовой информации 6.4. Цветовые гистограммы6.5. Сегментация цветных изображений6.6. Освещенность6.6.1. Излучение одиночного источника света6.6.2. Диффузное отражение6.6.3. Зеркальное отражение6.6.4. Потемнение при увеличении расстояния6.6.5. Дополнительные факторы6.6.6. Модель освещения Фонга*6.6.7. Учет освещенности зрительной системой человека6.7. Смежные темы*6.7.1. Приложения6.7.2. Человеческое цветовое восприятие6.7.3. Многоспектральные изображения6.7.4. Классификационные изображения6.8. Литература

Глава 7. Текстура

7.1. Текстура, текселы и текстурные статистики7.2. Тексельное описание текстур7.3. Количественные характеристики текстур7.3.1. Плотность и направление краев7.3.2. Локальное двоичное разбиение7.3.3. Вычисление характерных признаков на основе матрицы вхождений7.3.4. Энергетические текстурные характеристики Лавса7.3.5. Автокорреляция и спектр мощности7.4. Текстурная сегментация7.5. Литература

Глава 8. Поиск изображений на основе содержания

8.1. Примеры баз данных изображений8.2. Запросы к базам данных изображений8.3. Запросы по образцу8.4. Меры расстояния между изображениями8.4.1. Характеристики цветового сходства8.4.2. Характеристики текстурного сходства8.4.3. Характеристики сходства формы8.4.4. Характеристики сходства, учитывающие присутствующие на изображении объекты и их взаимное расположение8.5. Организация базы данных8.5.1. Стандартные индексы8.5.2. Пространственная индексация8.5.3. Индексация для систем поиска изображений на основе содержания, в которых применяется несколько различных мер расстояния8.6. Литература

Глава 9. Движение на двумерных изображениях

9.1. Явления и прикладные задачи, связанные с движением на изображениях9.2. Вычитание изображений9.3. Вычисление векторов перемещения9.3.1. Игра Decathlete9.3.2. Использование соответствующих точек9.3.3. Алгоритм MPEG для сжатия потока видеоданных9.3.4. Вычисление потока изображения*9.3.5. Уравнение потока изображения*9.3.6. Распространение ограничений при вычислении потока изображения* 9.4. Вычисление траекторий движущихся точек9.4.1. Слежение с учетом априорных знаний из предметной области9.5. Обнаружение значительных изменений условий видеосъемки......9.5.1. Сегментация видеопоследовательностей9.5.2. Игнорирование некоторых эффектов камеры9.5.3. Хранение фрагментов видеопоследовательностей9.6. Литература

Глава 10. Сегментация изображений

10.1. Обнаружение областей10.1.1. Методы кластеризации10.1.2. Наращивание областей10.2. Способы представления областей10.2.1. Оверлейные представления10.2.2. Маркированные изображения10.2.3. Кодирование границ10.2.4. Квадрантные деревья10.2.5. Таблицы свойств10.3. Обнаружение контуров10.3.1. Прослеживание границ существующих областей10.3.2. Детектор и компоновщик краев Кэнни10.3.3. Группировка согласующихся соседних контурных фрагментов в кривые10.3.4. Преобразование Хафа для обнаружения прямых и дуг окружностей10.4. Подбор моделей сегментов10.5. Обнаружение высокоуровневых структур10.5.1. Ленты10.5.2. Обнаружение углов10.6. Сегментация на основе согласованного движения10.6.1. Границы движущихся объектов10.6.2. Накопление траекторий движения10.7. Литература

Глава 11. Сопоставление в двумерном пространстве

11.1. Совмещение двумерных данных11.2. Представление точек11.3. Аффинные геометрические преобразования11.4. Наилучшее двумерное аффинное преобразование*11.5. Распознавание двумерных объектов с использованием аффинных преобразований11.6. Распознавание двумерных объектов с использованием реляционных моделей 11.7. Нелинейные методы деформации изображений11.8. Итоги11.9. Литература

Глава 12. Восприятие трехмерных сцен по двумерным изображениям

12.1. Внутренние изображения12.2. Маркировка контурных изображений объектов с плоскими гранями12.3. Трехмерные признаки на двумерных изображениях12.4. Другие способы определения пространственных свойств объектов12.4.1. Определение формы объектов по одному признаку12.4.2. Точки схода12.4.3. Определение глубины с помощью фокусировки12.4.4. Признаки, связанные с движением12.4.5. Контуры и виртуальные прямые12.4.6. Совмещенность12.5. Модель формирования изображений на основе перспективной проекции 12.6. Определение глубины с помощью стереоскопической системы12.6.1. Обнаружение соответствующих признаков12.7. Формула тонкой линзы*12.8. Итоги12.9. Литература

Глава 13. Восприятие трехмерных сцен. Оценка пространственного положения и ориентации объектов

13.1. Устройство стереоскопической системы компьютерного зрения общего назначения 13.2. Аффинные преобразования в трехмерном пространстве13.2.1. Системы координат13.2.2. Перенос13.2.3. Масштабирование13.2.4. Поворот13.2.5. Поворот вокруг произвольной оси13.2.6. Совмещение фигур посредством аффинных преобразований13.3. Модель камеры13.3.1. Матрица перспективной проекции13.3.2. Прямоугольная и слабая перспективная проекции13.3.3. Вычисление трехмерных координат с использованием нескольких камер13.4. Наилучшая аффинная калибровочная матрица13.4.1. Калибровочный стенд13.4.2. Задача для решения методом наименьших квадратов13.4.3. Обсуждение аффинного метода13.5. Использование структурной подсветки13.6. Простая процедура оценки положения наблюдаемого объекта13.7. Улучшенный метод калибровки камеры*13.7.1. Внутренние параметры камеры13.7.2. Внешние параметры камеры13.7.3. Пример калибровки13.8. Оценка положения объектов 13.8.1. Оценка положения на основе соответствия двумерных и трехмерных координат точек13.8.2. Линейная оптимизация при наличии ограничений13.8.3. Вычисление преобразования Тг = {R,T}13.8.4. Верификация и оптимизация при вычислении положения объектов13.9. Реконструкция трехмерных объектов13.9.1. Сбор дальнометрических данных13.9.2. Совмещение видов13.9.3. Реконструкция поверхности13.9.4. Алгоритм объемного удаления13.10. Вычисление формы по данным освещенности13.10.1. Стереофотометрический метод13.10.2. Интегральный учет пространственных ограничений13.11. Геометрическая структура объектов по данным о движении13.12. Литература

Глава 14. Трехмерные модели. Распознавание объектов на изображениях на основе моделей

14.1. Обзор распространенных разновидностей моделей14.1.1. Трехмерные каркасные модели 14.1.2. Модели типа «поверхность-ребро-вершина»14.1.3. Модели на основе обобщенных цилиндров14.1.4. Модели на основе октантных деревьев14.1.5. Модели на основе суперквадрик14.2. Модели на основе классов видимости как альтернатива истинным трехмерным моделям14.3. Физические и деформационные модели14.3.1. Модели на основе активных контуров (snakes-модели)14.3.2. Трехмерные оболочечные модели14.3.3. Моделирование движения человеческого сердца14.4. Основные методы распознавания трехмерных объектов14.4.1. Распознавание по трехмерным моделям с использованием процедуры совмещения14.4.2. Распознавание на основе сопоставления исходных данных с реляционными моделями14.4.3. Распознавание на основе сопоставления с функциональными моделями14.4.4. Распознавание по внешнему виду объектов14.5. Литература

Глава 15. Системы виртуальной реальности

15.1. Основные признаки систем виртуальной реальности15.2. Приложения систем виртуальной реальности15.3. Системы дополненной реальности15.4. Дистанционное управление15.5. Устройства для систем виртуальной реальности15.6. Краткий обзор датчиков для систем виртуальной реальности15.7. Генерация простых трехмерных моделей15.8. Сочетание реальных и искусственных изображений15.9. Психофизиологические аспекты человеко-машинного интерфейса15.10. Литература

Глава 16. Примеры прикладных задач

16.1. Veggie Vision: система для распознавания овощей и фруктов16.1.1. Прикладная область и требования к системе16.1.2. Устройство системы16.1.3. Процедура идентификации16.1.4. Более подробное описание процесса обработки16.1.5. Производительность16 2. Идентификация личности человека по радужной оболочке глаза16.2.1. Требования к системам идентификации личности16.2.2. Устройство системы16.2.3. Производительность системы16.3. Литература

Аннотированный список литературы, добавленный при переводе

1. Распознавание образов и компьютерное зрение2. Представление и обработка изображений3. Компьютерная графика и геометрическое моделирование4. Смежные вопросы

Системы технического зрения (СТЗ) призваны и во многих случаях уже решают задачи по дополнению или даже замене человека в областях деятельности, связанных со сбором и анализом зрительной информации. Уровень их использования в прикладных областях является одним из наиболее ярких и наглядных интегральных показателей уровня развития высоких технологий в самых различных отраслях промышленности.

Составные части СТЗ: оптическая система, преобразователь свет-сигнал, электронный тракт ввода элементов изображения в память ЭВМ или специального вычислителя, математическое обеспечение сбора и обработки необходимых зрительных данных, выдвигают самые высокие требования к соответствующим направлениям научно-технической мысли.

Несмотря на значительные успехи, достигнутые в области машинного зрения, эффективное его использование в качестве средства автоматизации приходится, прежде всего, на наиболее развитые производства с общей высокой культурой и технологией. В плохо организованных средах и исследовательских задачах на СТЗ возлагается роль дополнения, расширяющего возможности и повышающего эффективность человеческого зрительного анализа, при ведущей и определяющей роли человека-оператора или исследователя. Следует констатировать тот факт, что не существует универсального математического аппарата, который позволил бы сформировать общий формализованный подход к построению систем технического зрения. Поэтому, с точки зрения подготовки специалистов в области машинного зрения, очень важны публикации, в которых отдельные математические средства и модели рассматриваются в контексте системного подхода к решению той или иной практической задачи.

После полутора-двух десятилетий пониженного спроса в отечественной промышленности на новые разработки в области высоких технологий сейчас стали проявляться признаки оживления спроса на средства автоматизации производства и как на важную их часть —СТЗ. Не только для разработки систем машинного зрения, но и для их эффективного использования необходимо иметь специальную подготовку и понимание того, как работают подобные системы. Вместе с тем, по сравнению с другими областями информационных технологий, относительно мало монографий, посвященных машинному зрению или отдельным его составляющим. Еще меньшее число переведено на русский язык, а отечественные публикации представлены в основном статьями в различных сборниках.

Здесь, как нельзя кстати, книга Линды Шапиро и Джорджа Стокмана, адресованная, прежде всего, студентам старших курсов и аспирантам, интересующимся современным состоянием дел в такой интересной и увлекательной области, как машинное зрение. Одним из достоинств данной книги является то, что при акценте на математическом обеспечении, в ней сбалансированно представлены и все другие составные части систем технического зрения, требующие учета при разработке или эксплуатации СТЗ. Теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач, кроме того, во всех частях дано большое количество упражнений, закрепляющих усвоенный материал и вырабатывающих навыки решения практических задач.

Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Представлен законченный обзор двух систем компьютерного зрения прикладного назначения. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике. На Web-сайте для поддержки книги находятся архивы изображений, исходные тексты программ для примеров обработки изображений и слайды презентаций по тематике книги.

Следует отметить очень качественно выполненный перевод предлагаемой книги. Все термины тщательно выверены с точки зрения их профессионального использования именно в рассматриваемой области.

Выбор терминов, которые наиболее точно соответствуют английскому слову в такой быстро развивающейся области, как машинное зрение, зачастую является довольно сложной задачей. В ряде случаев переводчик вынужден приводить несколько наиболее подходящих значений русских аналогов, а в ряде случаев, в соответствии с уже сложившейся практикой, принимается английский вариант в русской транскрипции, как например, со словом pixel, что в смысловом переводе означает элемент изображения, но де-факто используется без перевода—пиксел (реже пиксель).

проф. С. М. Соколов

Эта книга была написана в качестве учебника по компьютерному зрению, рассчитанного на студентов и аспирантов. Мы стремились достичь трех главных целей.

Во-первых, мы хотели представить в книге наиболее важный базовый материал по основным разделам компьютерного зрения, который необходим студентам, желающим работать в данной области.

Во-вторых, в книгу были включены ряд алгоритмов и прикладных задач повышенной сложности, на примере которых студенты и аспиранты смогут получить представление о некоторых направлениях современных исследований.

И в-третьих (хотя и не в последнюю очередь), мы надеялись поделиться с читателями нашей увлеченностью компьютерным зрением, которое продолжает развиваться даже быстрее, чем мы ожидали. Мы выражаем благодарность к. ф.-м. н. А. А. Богуславскому и д. ф.-м. н. С.М. Соколову, работавшим над русским изданием книги. Мы надеемся, что книга будет полезна при изучении компьютерного зрения российскими студентами и аспирантами и что она будет способствовать расширению взаимодействия между американскими и российскими учеными и инженерами. Достигнутые ими результаты, несомненно, необходимы для прогресса в этой области.

Линда Шапиро и Джордж Стокман

Эта книга представляет собой вводное руководство по компьютерному зрению для широкого круга читателей. В ней содержится необходимый теоретический материал и примеры для студентов и инженеров, планирующих работать в прикладных областях, в которых требуется автоматически извлекать из изображений некоторую существенную информацию. Материалы книги могут быть полезны и для профессионалов; книга может использоваться в качестве учебника для студентов и для начального обучения аспирантов, а также при выполнении исследовательских проектов в колледжах и в высшей школе.

Наша цель состояла в том, чтобы привести базовый набор основных понятий и алгоритмов, а также обсудить некоторые наиболее интересные прикладные области. Данная книга уникальна наличием глав по таким захватывающе интересным и развивающимся в последнее время прикладным областям, как базы данных изображений (гл. 8) и системы виртуальной реальности (гл. 15). В заключительной главе (гл. 16) приведено подробное рассмотрение двух реальных систем, в которых применяется компьютерное зрение.

Прогресс в области вычислительной техники привел к повсеместному распространению разнообразных недорогих приложений, связанных с использованием компьютерных изображений. Вычислительная обработка изображений теперь является не только предметом научных исследований. Она применяется даже в искусстве и в общественных науках и представляет интерес для отдельных любителей.

Книга должна быть полезна существующей и постоянно расширяющейся аудитории, включая тех, кого кроме традиционных областей автоматизации, обработки изображений, получения медицинских изображений, бесконтактных измерений и компьютерной картографии интересуют такие области, как мультимедиа, искусство и дизайн, геоинформационные системы и базы данных изображений. На первый взгляд, настолько общих целей невозможно достичь.

Однако подобные учебники уже существуют в других областях, например по физике, математике и компьютерным наукам. Мы надеемся, что сделали, по крайней мере, хорошую книгу для начинающих — мы хотели написать книгу, которая была бы полезна и на аудиторных занятиях, и самостоятельному читателю. Мы считаем, что выбранные темы будут интересными и иногда увлекательными, и, надеемся, доступными для большой аудитории. Подразумевается, что в случае применения книги для обучения дипломированных специалистов или аспирантов в учебном курсе по компьютерному зрению также будут использованы статьи из списка дополнительной литературы.

Этот список не планировалось сделать всесторонним; в конце каждой главы приведены ссылки на довольно небольшой набор статей. Изложение материала в первых главах начинается на интуитивном уровне и затем происходит переход к использованию математических моделей. Это сделано с целью Формирования интуитивного понимания до знакомства с формальным описанием.

Разделы, отмеченные звездочкой (*), являются более сложными и математически насыщенными. В учебном курсе, не затрагивающем технических деталей, эти разделы можно не рассматривать. Для усиления интуитивного подхода в первых одиннадцати главах рассматривается обработка плоских изображений, а трехмерное компьютерное зрение оставлено для более поздних глав.

Опытные преподаватели без труда смогут перераспределить материал в расчете на конкретный учебный курс или стиль обучения. Существует большое количество полностью двумерных приложений. В двумерной форме оказывается проще изучать многие понятия и алгоритмы. В гл. 4 рассматривается ряд основных понятий, связанных с распознаванием образов. Таким образом студенты смогут получить представление о законченных системах распознавания до полного изучения характерных признаков изображений и методов их нахождения. После изучения гл. 4 читатель получит хорошее представление о приложениях обработки двумерных изображений.

В гл. 5, 6 и 7 вводятся характерные признаки полутоновых и цветных изображений, а также текстурные признаки. В гл. 8 обсуждается популярная недавно возникшая прикладная область — базы данных изображений. Некоторые коллеги советовали нам поместить этот материал в конце книги, но мы расположили его раньше, чтобы закрепить усвоение понятий предшествующих глав и представить материал, который может пригодиться для полусеместровых проектов.

Сегментация и распознавание образов на двумерных изображениях рассматриваются в гл. 10 и 11. Материал в них представлен в наиболее простой форме, без учета сложностей, связанных с геометрическими преобразованиями в трехмерном пространстве. Свойства трехмерного пространства кратко представлены в гл. 2. Намного более подробно они изучаются в гл. 12. В гл. 12 качественно рассматриваются многие аспекты восприятия трехмерного мира посредством двумерных изображений. Эта глава заканчивается описанием модели стереоскопической зрительной системы и нескольких примеров применения уравнения тонкой линзы.

Переход к трехмерному компьютерному зрению выполняется в гл. 13. На основе собственного преподавательского опыта авторы обнаружили, что на данном этапе сложность материала для студентов резко возрастает. Матрицы для представления геометрических преобразований в однородных координатах используются непосредственно в материале главы, а не выносятся в приложение. Трехмерные версии этих преобразований являются расширениями более простых двумерных преобразований, уже рассматривавшихся в гл. 11.

Аппроксимация методом наименьших квадратов, представленная в контексте двумерных задач в гл. 11, в гл. 13 также расширяется на трехмерный случай. Нелинейная оптимизация сначала рассматривается применительно к простой «перспективной задаче 3 точек». Затем нелинейная оптимизация применяется в задаче калибровки камеры с учетом радиальной дисторсии объектива. В гл. 14 описываются трехмерные модели и их распознавание по данным дальнометрических измерений. Глава 15 посвящена обсуждению приложений виртуальной и дополненной реальности и роли в них методов компьютерного зрения.

Более подробно о лечении, профилактике и восстановлении зрения Вы можете узнать здесь.

Замечания относительно языка программирования

Книга не ориентирована на какой-либо конкретный язык программирования, но в ней используется некоторая обобщенная система обозначений для записи алгоритмов. Выбирать определенный язык не было необходимо. Конкретный язык для многих читателей мог бы оказаться не самым подходящим. Студенты, знакомые с программированием, при реализации алгоритмов не должны встретить значительных проблем, что и продемонстрировали наши собственные студенты.

Примеры реализации в конечном счете будут представлены через Интернет. Это будет сделано, когда примеры реализации будут доступными и подходящими, во-первых, чтобы студенты могли быстро экспериментировать с ними, и, во-вторых, чтобы они могли изучать примеры исходных текстов программ. Для преподавателей и студентов доступны ряд инструментальных средств и библиотек; например, Khoros, NIH-Image, XView, gimp, MATLAB, и т. д. Существуют также программные пакеты, которые можно приобрести у компаний-производителей аппаратного обеспечения для систем машинного зрения.

Более подробно о лечении, профилактике и восстановлении зрения Вы можете узнать здесь.

Авторы решили не ориентировать материалы книги на какое-либо определенное программное обеспечение по двум причинам. Во-первых, большинство читателей использовали бы какие-то другие пакеты. Во-вторых, восприятие книги было бы затруднено, если бы сущность операций по обработке изображений была скрыта за рассмотрением сложного каркаса структур данных и методов, необходимых в промышленных прикладных системах. Читатель, сначала изучивший принципы в простой программной среде, будет лучше подготовлен к успешному выбору и использованию промышленных систем.

Варианты работы с книгой

Материал книги может быть различными способами отобран и при необходимости переупорядочен, применительно к целям конкретного учебного курса и с учетом интересов преподавателя и студентов.

* Глава 3 и краткий обзор гл. 2. Минимальным вариантом использования книги могло бы быть добавление 1-3 лекций в курс но структурам данных и алгоритмам. Гл. 3, с учетом некоторых предварительных сведений из гл. 2, содержит ряд показательных приложений и упражнений на программирование с использованием двумерных массивов, поиска «в глубину» и структур данных для представления множеств.

* Главы 1, 2 и 3 и избранные фрагменты гл. 4, 5 и 6. В данном случае книга может служить для дополнения учебных курсов колледжей и младших курсов университетов материалом, рассчитанным на срок от 1 до 3 недель. Цель использования книги может заключаться в написании курсовой работы или быть более сложной, скажем, как групповой проект по разработке какой-либо программы (например, двумерной системы распознавания деталей на основе анализа связных компонент маркированных изображений, или системы распознавания моделей на основе сопоставления векторов характерных признаков).

* Большая часть материала гл. 1-11. Например, в таком варианте может быть сделан обзор материала по обработке двумерных изображений в рамках курса по выбору для студентов, специализирующихся в географии, природных ресурсах или микробиологии (при условии, что будут пропущены большинство необязательных разделов). Если будут рассмотрены большинство разделов гл. 1-11, то такой объем мог бы соответствовать семестровому курсу по обработке и анализу изображений с введением в область компьютерного зрения.

* Большая часть книги. Подобный объем позволяет построить семестровый курс по компьютерному зрению для студентов старших курсов или аспирантов первого года обучения. В книге существенно больше материала, чем можно успеть подробно рассмотреть в течение одного семестра. Некоторые разделы придется проигнорировать или рассмотреть кратко, и не следует полагать, что читатель сможет решать домашние задания из всех разделов книги. При обучении студентов по учебным планам, разбитым на четверти, гл. 1-4, 6-12, и 14 обеспечат хорошее введение в область компьютерного зрения. В учебном курсе для аспирантов в течение одной четверти можно предложить минимальное рассмотрение гл. 1-4, затем акцентированное рассмотрение гл. 6-14 и краткий обзор гл. 15. Предполагается, что в любом курсе для аспирантов в процессе обучения будут использоваться статьи из дополнительной литературы.

Мы благодарны многим нашим коллегам, преподавателям, и студентам, с которыми нас объединяют общие интересы. Многие великодушно поддержали эту книгу вкладом идей, иллюстраций и алгоритмов. Отдельные цитаты приведены в этой книге повсюду. К сожалению, много предоставленного материала мы не смогли включить в книгу — иначе она могла бы стать слишком большой. Нашу работу существенно улучшили несколько рецензентов и много коллег, с которыми мы общались в процессе написания книги. В особенности мы благодарны тем, кто внимательно редактировал книгу. Это Mohammad Ghavamzadeh, Nick Dutta, Kevin Bowyer, Adam Clark, Yu-Yu Chou, Habib Abi-Rached, Valentin Razmov. За любые оставшиеся в книге ошибки и за их исправление в будущем ответственность несут авторы.

Подготовка этой книги продолжалась четыре года. Нам помогали Paul Becker из Addison Wesley-Longman, Tom Robbins из Prentice Hall, Rose Rummel-Eury и Chanda Wakefield из ICC, а также Cathy Davison и Lorraine Evans. Создание этой книги было непростой работой, и, конечно, нам помогла команда профессионалов, обладающих как опытом, так и чувством юмора.Линда Шапиро

Джордж Стокман

Купить или скачать книгу

Все файлы на сайте, прежде чем выкладываются, проверяются на вирусы. Поэтому мы даем 100% гарантию чистоты файлов.

Нажмите на ссылку ниже, чтобы скачать книгу:

Yandex.Narod " target="_blank" rel="nofollow">► Скачать книгу ◄

zreni.ru

Издана книга «Компьютерное зрение. Современный подход», Дэвид А. Форсайт, Джин Понс, бумага офсетная-белая, твердый переплет, 960 стр., ISBN 978-5-8459-0542-0, «ДИАЛЕКТИКА», 2018

Компьютерное зрение. Современный подходДэвид А. Форсайт Джин Понс
Допечатана книга «Компьютерное зрение. Современный подход», Дэвид А. Форсайт, Джин Понс, бумага офсетная-белая, твердый переплет, 960 стр., ISBN 978-5-8459-0542-0, «ДИАЛЕКТИКА», 2018 - заказать-купить книгу по «Компьютерное зрение. Современный подход» в онлайн-мегамаркете Ozon.ru

Компьютерное зрение (CV, Computer Vision) — это одна из самых востребованных областей на данном этапе развития глобальных цифровых компьютерных технологий

Компьютерное зрение требуется на производстве, при управлении роботами, при автоматизации процессов, в медицинских и военных приложениях, при наблюдении со спутников и при работе с персональными компьютерами, в частности поиске цифровых изображений

Книга «Компьютерное зрение. Современный подход» ориентирована на широкий круг читателей, интересующихся данной областью, в первую очередь — на студентов и преподавателей технических вузов, занимающихся вычислительной геометрией, компьютерной графикой, обработкой изображений, работой с изображениями вообще и робототехникой

Книга «Компьютерное зрение. Современный подход» построена в форме сборника лекций (по возможности независимых), посвященных разнообразным вопросам, так что ее можно использовать как учебник по компьютерному зрению

Оригинал книги: «Computer Vision: A Modern Approach» by David A. Forsyth, Jean Ponce

(книгу можно заказать-купить в Библио-Глобус)(заказать-купить книгу «Компьютерное зрение. Современный подход» в интернет-магазине biblio-globus.ru)

(книгу можно заказать-купить в КОМБУКе - самая низкая цена в России)(заказать-купить книгу «Компьютерное зрение. Современный подход» в интернет-магазине ComBook.ru)

(книгу можно заказать-купить в Ozon.ru)(заказать-купить книгу по «Компьютерное зрение. Современный подход» в онлайн-мегамаркете Ozon.ru)

(книгу можно заказать-купить в DiaMail Украина)(заказать-купить книгу по «Компьютерное зрение. Современный подход» в интернет-магазине diamail.com.ua)

На русском языке книга вышлат в ноябре 2017 года в издательстве «ДИАЛЕКТИКА» и издана ограниченным тиражом_________________________________________________________________________________СОДЕРЖАНИЕ книги «Компьютерное зрение. Современный подход»_________________________________________________________________________________Предисловие

Часть I Формирование изображений и модели изображений1 КАМЕРЫ2 ГЕОМЕТРИЧЕСКИЕ МОДЕЛИ КАМЕР3 ГЕОМЕТРИЧЕСКАЯ КАЛИБРОВКА КАМЕР4 РАДИОМЕТРИЯ - ИЗМЕРЕНИЕ СВЕТА5 ИСТОЧНИКИ, ТЕНИ И ЗАТЕНЕНИЕ6 СВЕТ

Часть II Первые этапы: одно изображение7 ЛИНЕЙНЫЕ ФИЛЬТРЫ8 ОПРЕДЕЛЕНИЕ КРАЕВ9 ТЕКСТУРА

Часть III Первые этапы: несколько изображений10 ГЕОМЕТРИЯ НЕСКОЛЬКИХ ПРОЕКЦИЙ11 СТЕРЕОЗРЕНИЕ12 ОПРЕДЕЛЕНИЕ АФФИННОЙ СТРУКТУРЫ ПО ДВИЖЕНИЮ13 ОПРЕДЕЛЕНИЕ ПРОЕКТИВНОЙ СТРУКТУРЫ ПО ДВИЖЕНИЮ

Часть IV Компьютерное зрение: средний уровень14 СЕГМЕНТАЦИЯ ЧЕРЕЗ КЛАСТЕРИЗАЦИЮ15 СЕГМЕНТАЦИЯ ЧЕРЕЗ ПОДБОР МОДЕЛИ16 СЕГМЕНТАЦИЯ И ПОДБОР С ИСПОЛЬЗОВАНИЕМ ВЕРОЯТНОСТНЫХ МЕТОДОВ17 СОПРОВОЖДЕНИЕ С ИСПОЛЬЗОВАНИЕМ ЛИНЕЙНЫХ ДИНАМИЧЕСКИХ МОДЕЛЕЙ

Часть V Верхний уровень компьютерного зрения: геометрические методы18 ЗРЕНИЕ НА ОСНОВЕ МОДЕЛИ19 ГЛАДКИЕ ПОВЕРХНОСТИ И ИХ КОНТУРЫ20 АСПЕКТНЫЕ ГРАФИКИ21 ДАЛЬНОСТНЫЕ ДАННЫЕ

Часть VI Верхний уровень: вероятностные методы и методы логического вывода22 ПОИСК ШАБЛОНОВ С ИСПОЛЬЗОВАНИЕМ КЛАССИФИКАТОРОВ23 РАСПОЗНАВАНИЕ ЧЕРЕЗ СВЯЗЬ ШАБЛОНОВ24 ГЕОМЕТРИЧЕСКИЕ ШАБЛОНЫ ЧЕРЕЗ ПРОСТРАНСТВЕННЫЕ СВЯЗИ

Часть VII Приложения25 ПОИСК В ЦИФРОВЫХ БИБЛИОТЕКАХ26 ВИЗУАЛИЗАЦИЯ НА ОСНОВЕ ИЗОБРАЖЕНИЙ

ЛИТЕРАТУРАПРЕДМЕТНЫЙ УКАЗАТЕЛЬ

Будет издана книга «Основы машинного обучения для аналитического прогнозирования: алгоритмы, рабочие примеры и тематические исследования», Джон Д. Келлехер, Брайан Мак-Нейми и Ифе д’Арси, бумага офсетная-белая, твердый переплет, ~700 стр., ISBN , «ДИАЛЕКТИКА», 2018

Машинное обучение часто используется для построения прогностических моделей путем извлечения шаблонов из больших наборов данных. Эти модели используются в приложениях для предсказания, включая прогнозирование цен, оценку риска, прогнозирование поведения клиентов и классификацию документов

Книга «Основы машинного обучения для аналитического прогнозирования» - это вводный учебник, который предлагает подробное и целенаправленное рассмотрение наиболее важных подходов к машинному обучению, используемых в аналитическом прогнозировании, охватывающих как теоретические концепции, так и практические приложения

В книге формальный математический материал дополняется практическими примерами, а тематические исследования иллюстрируют применение этих моделей в более широком контексте бизнеса

После обсуждения перехода от данных к решению, в книге «Основы машинного обучения для аналитического прогнозирования» описывается четыре подхода к компьютерному обучению: информационное обучение, обучение на основе сходства, вероятностное обучение и обучение на основе ошибок

Каждый из этих подходов сначала описывается неформально, а затем приводятся математические модели и алгоритмы, иллюстрированные подробными практическими примерами. Наконец, в книге рассматриваются методы оценки моделей прогнозирования и предлагаются два тематических исследования, которые описывают конкретные проекты анализа данных на каждом этапе разработки, начиная от формулирования бизнес-задачи и заканчивая реализацией аналитического решения

Книга «Основы машинного обучения для аналитического прогнозирования: алгоритмы, рабочие примеры и тематические исследования», написанная авторами, имеющими многолетний опыт преподавания методов машинного обучения и работы над проектами аналитического прогнозирования, предназначена для студентов и аспирантов, специализирующихся в области компьютерных наук (информатики), математики или статистики, а также как справочник для профессионалов

Оригинал книги: «Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies» by John D. Kelleher, Brian Mac Namee and Aoife D'Arcy, 624 pages, ISBN 9780262029445, 2016. ЗДЕСЬ - отзывы покупателей книги на англ.языке в www.amazon.com

Книга обсуждается в отдельном сообщении моего блога

Прикладное машинное обучение с помощью Scikit-Learn и TensorFlowОрельен Жерон полноцветное издание
В продаже книга «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники для создания интеллектуальных систем», Орельен Жерон, (в переводе Юрия Артёменко), бумага офсетная-белая, твердый переплет, полноцветное издание, 688 стр., ISBN 978-5-9500296-2-2, «ДИАЛЕКТИКА», 2018 - заказать-купить книгу «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow» в интернет-магазине ComBook.ru

Благодаря серии недавних достижений глубокое обучение значительно усилило всю область машинного обучения. В наше время даже программисты, почти ничего не знающие об этой технологии, могут использовать простые и эффективные инструменты для реализации программ, которые способны обучаться на основе данных. В настоящем практическом руководстве - книге «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники для создания интеллектуальных систем», показано, что и как делать

За счет применения конкретных примеров, минимума теории и двух фреймворков Python прикладного уровня – Scikit-Learn и TensorFlow – автор книги Орельен Жерон поможет получить интуитивное представление о концепциях и инструментах, предназначенных для построения современных интеллектуальных систем

Из книги Вы узнаете о ряде приемов, начав с простой линейной регрессии и постепенно добравшись до глубоких нейронных сетей. Учитывая наличие в каждой главе книги «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники для создания интеллектуальных систем» упражнений, помогающих закрепить то, чему вы научились, для начала работы нужен лишь опыт программирования:

• Исследуйте область машинного обучения, особенно нейронные сети• Используйте Scikit-Learn для отслеживания проекта машинного обучения от начала до конца• Исследуйте некоторые обучающие модели, включая методы опорных векторов, деревья принятия решений, случайные леса и ансамблевые методы• Применяйте библиотеку TensorFlow для построения и обучения нейронных сетей• Исследуйте архитектуры нейронных сетей, включая свёрточные сети, рекуррентные сети и глубокое обучение с подкреплением• Освойте приемы для обучения и масштабирования глубоких нейронных сетей• Используйте практические примеры кода, не овладевая чрезмерно теорией машинного обучения или деталями алгоритмов

Отдельная 16 Глава книги посвящена освещению темы Обучение с подкреплением (Reinforcement Learning — RL), которая на сегодняшний день является одной из наиболее захватывающих областей машинного обучения!

«Эта книга — замечательное введение в теорию и практику решения задач с помощью нейронных сетей. Она охватывает ключевые моменты, необходимые для построения эффективных приложений, а также обеспечивает достаточную основу для понимания результатов новых исследований по мере их появления. Я рекомендую эту книгу всем, кто заинтересован в освоении практического машинного обучения» — Пит Уорден, технический руководитель направления TensorFlow в Google

Оригинал книги: «Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques for Building Intelligent Systems», Aurelien Geron, 566 pages, ISBN 9781491962299, March 2017

ЗДЕСЬ - читайте полное СОДЕРЖАНИЕ книги «Прикладное машинное обучение»ЗДЕСЬ - читайте ВВЕДЕНИЕ из книги Орельена Жерона «Прикладное машинное обучение»ЗДЕСЬ - читайте 5 Главу «Методы опорных векторов» из книги «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники для создания интеллектуальных систем»

(книгу можно заказать-купить в Библио-Глобус)(заказать-купить книгу «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow» в интернет-магазине biblio-globus.ru)

(книгу можно заказать-купить в КОМБУКе - самая низкая цена в России)(заказать-купить книгу «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow» в интернет-магазине ComBook.ru)

(книгу можно заказать-купить в Ozon.ru)(заказать-купить книгу «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow» в онлайн-мегамаркете Ozon.ru)

(книгу можно заказать-купить в DiaMail Украина)(заказать-купить книгу «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow» в интернет-магазине diamail.com.ua)

Книга обсуждается в отдельном сообщении моего блога

Будет издана книга «Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование», Тревор Хасти, Роберт Тибширани, Джером Фридман, 2-е издание, бумага офсетная-белая, твердый переплет, ~800 стр., ISBN , «ДИАЛЕКТИКА», 2018

В течение последнего десятилетия произошел стремительный рост вычислительных и информационных технологий. Благодаря этому в различных областях, таких как медицина, биология, финансы и маркетинг, появилась возможность обрабатывать огромные объемы данных. Необходимость понимания этих данных привела к разработке новых инструментов в области статистики и породила новые области, такие как интеллектуальный анализ данных, машинное обучение и биоинформатика. Многие из этих инструментов имеют общие основы, но часто выражаются с помощью разных терминов

В книге «Основы статистического обучения» описываются важные идеи, существующие в этих областях, на основе общего концептуального подхода. Хотя этот подход является статистическим, акцент делается на концепциях, а не на математике. Авторы приводят много примеров с широким использованием графических иллюстраций

В частности, в книге «Основы статистического обучения» рассматриваются основные понятия и методы статистического обучения: линейная регрессия, нелинейная регрессия, линейные методы классификации, регуляризация, ядерное сглаживание, оценивание и выбор моделей, аддитивные модели, деревья классификации, создание повторных выборок, нейронные сети, случайные леса и многое другое. Авторы приводят множество примеров и цветных иллюстраций применения этих методов на практике

Книга «Основы статистического обучения» представляет собой ценный источник знаний для статистиков и всех, кто интересуется обработкой данных в науке или промышленности. Диапазон тем, охваченных книгой, обширен: от обучения с учителем (прогнозирования) до обучения без учителя, включая нейронные сети, метод опорных векторов, деревья классификации и бустинг

Новое издание книги «Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование» (2-е издание) содержит множество тем, не охваченных в первом издании, включая графовые модели, случайные леса, ансамблевые методы, метод наименьших углов и LASSO, алгоритмы неотрицательной матричной факторизации и спектральной кластеризации. В книгу включена также глава о методах обработки “широких” данных, включая множественное тестирование и оценивание уровня ложноположительных результатов

Книга «Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование» представляет огромный интерес для специалистов, применяющих методы статистического обучения (машинного обучения), а также для студентов, изучающих компьютерные науки (информатику)

Оригинал книги: «The Elements of Statistical Learning: Data Mining, Inference, and Prediction» by Trevor Hastie, Robert Tibshirani, Jerome Friedman, 2ed Edition, 745 pages, ISBN 9780387848570, 2009

Книга обсуждается в отдельном сообщении моего блога

Создаем нейронную сетьТарик Рашидполноцветное издание
В продаже мировой бестселлер - книга «Создаем нейронную сеть», Тарик Рашид, полноцветное издание, мягкий переплет, 272 стр., ISBN 978-5-9909445-7-2, «ДИАЛЕКТИКА», 2017 - заказать-купить книгу «Создаем нейронную сеть» в интернет-магазине Ozon.ru

Книга «Создаем нейронную сеть» представляет собой введение в теорию и практику создания нейронных сетей. Тарик Рашид, автор этой книги, простым и понятным языком объясняет теоретические аспекты, знание которых необходимо для понимания принципов функционирования нейронных сетей и написания соответствующих программных инструкций

Изложение материала сопровождается подробным описанием процедуры поэтапного создания полностью функционального кода, который реализует нейронную сеть на языке языке программирования Python и способен выполняться даже на таком миниатюрном компьютере, как Raspberry Pi Zero

Основные темы книги «Создаем нейронную сеть»:

— нейронные сети и системы искусственного интеллекта;— структура нейронных сетей;— сглаживание сигналов, распространяющихся по нейронной сети, с помощью функции активации;— тренировка и тестирование нейронных сетей;— интерактивная оболочка для языка программирования Python - IPython;— использование нейронных сетей в качестве классификаторов объектов;— распознавание образов с помощью нейронных сетей

Книга «Создаем нейронную сеть» предназначена для тех, кто хочет узнать, что такое нейронные сети, где они применяются и как самому создать такую сеть, не имея опыта работы в данной области

Оригинал книги: «Make Your Own Neural Network», Tariq Rashid, 222 pages, ISBN 9781530826605, March 2016

ЗДЕСЬ - читайте ПРЕДИСЛОВИЕ из книги Тарика Рашида «Создаем нейронную сеть»ЗДЕСЬ - читайте ВВЕДЕНИЕ из книги Тарика Рашида «Создаем нейронную сеть»ЗДЕСЬ - читайте полное СОДЕРЖАНИЕ книги Тарика Рашида «Создаем нейронную сеть»ЗДЕСЬ - читайте 3 Главу «Несколько интересных проектов» из книги Тарика Рашида «Создаем нейронную сеть»

(книгу можно заказать-купить в Библио-Глобус)(заказать-купить книгу «Создаем нейронную сеть» в интернет-магазине biblio-globus.ru)

(книгу можно заказать-купить в КОМБУКе - самая низкая цена в России)(заказать-купить книгу «Создаем нейронную сеть» в интернет-магазине ComBook.ru)

(книгу можно заказать-купить в Ozon.ru)(заказать-купить книгу по «Создаем нейронную сеть» в онлайн-мегамаркете Ozon.ru)

(книгу можно заказать-купить в DiaMail Украина)(заказать-купить книгу «Создаем нейронную сеть» в интернет-магазине diamail.com.ua)

Книга обсуждается в отдельном сообщении моего блога

Будет издана книга «Компьютерные науки. Базовый курс», Гленн Брукшир, Деннис Брилов, 13-е издание, (под общ.редакцией Виктора Штонда), полноцветное издание, твердый переплет, ~800 стр., ISBN , «ДИАЛЕКТИКА», 2019

Книга «Компьютерные науки. Базовый курс» написана для студентов, выбравших компьютерные науки своей профессией, а также для студентов, специализирующихся в любых других дисциплинах. Широкий охват материала вместе с четким изложением делает его доступным для студентов с любым базовым уровнем, обеспечивая практическое и реалистичное понимание предмета

Назначение этой книги — предоставить студентам всестороннее представление о предмете компьютерных наук, охватывающее все его аспекты, от сугубо практических до полностью абстрактных. Такой всесторонний подход к изучению базовых понятий открывает перед студентам, изучающими компьютерные науки, всю необъятную широту того предмета, в котором они решили специализироваться, а студентам любых других дисциплин позволяет получить общее представление о тех возможностях, которые доступны в том современном технократическом обществе, в котором они живут

Оригинал книги: «Computer Science: An Overview», Glenn Brookshear, Dennis Brylow, 13th Edition, 736 pages, ISBN 9780134875460, March 2018

Книга обсуждается в отдельном сообщении моего блога_________________________________________СЛЕДИТЕ ЗА ИЗМЕНЕНИЯМИ В ЭТОМ СООБЩЕНИИ - последнее обновление - 29 июня 2018 года_________________________________________

Виктор Штонда, издательViktor Shtonda, publisher
ВОПРОС - какие еще книги этой тематики Вы можете предложить для оперативного издания на русском языке ?

P.S. Только Ваша активная позиция в столь непростое время будет способствовать появлению новых и нужных Вам книг. А также, способствовать повышению качества книг, издаваемых издательской группой «ДИАЛЕКТИКА-ВИЛЬЯМС» _____________________________________________Ваши комментарии перед публикацией я просматриваю. Поэтому, я оставляю за собой право публиковать или нет комментарии с подписью Анонимный

shtonda.blogspot.com

Современное компьютерное зрение. Задачи и технологии компьютерного зрения. Программирование компьютерного зрения на Python

Как научить компьютер понимать, что изображено на картинке или фотографии? Нам это кажется просто, но для компьютера это всего лишь матрица, состоящая из нулей и единиц, из которой нужно извлечь важную информацию.

Что такое компьютерное зрение? Это способность компьютера «видеть»

Зрение — это важный источник информации для человека, с помощью него мы получаем, по разным данным, от 70 до 90% всей информации. И, естественно, если мы хотим создать умную машину, нам необходимо реализовать те же навыки и в компьютере.

Задача компьютерного зрения может быть сформулирована достаточно нечетко. Что такое «видеть»? Это понимать, что где расположено, просто глядя. В этом и заключены различия компьютерного зрения и зрения человека. Зрение для нас - это источник знаний о мире, а также источник метрической информации – то есть способность понимать расстояния и размеры.

Семантическое ядро изображения

Глядя на изображение, мы можем охарактеризовать его по ряду признаков, так сказать, извлечь семантическую информацию.

Например, глядя на эту фотографию, мы можем сказать, что это вне помещения. Что это город, уличное движение. Что здесь есть автомобили. По конфигурации здания и по иероглифам мы можем догадаться, что это Юго-Восточная Азия. По портрету Мао Цзэдуна понимаем, что это Пекин, а если кто видел видеотрансляции или сам там побывал, сможет догадаться, что это знаменитая площадь Тяньаньмэнь.

Что мы можем ещё сказать о картинке, рассматривая её? Можем выделить объекты на изображении, сказать, вот там люди, здесь ближе - ограда. Вот зонтики, вот здание, вот плакаты. Это примеры классов очень важных объектов, поиском которых занимаются на данный момент.

Ещё мы можем извлечь некоторые признаки или атрибуты объектов. Например, здесь мы можем определить, что это не портрет какого-то рядового китайца, а именно Мао Цзэдуна.

По автомобилю можно определить, что это движущийся объект, и он жесткий, то есть во время движения не деформируется. Про флаги можно сказать, что это объекты, они также двигаются, но они не жесткие, постоянно деформируются. А также в сцене присутствует ветер, это можно определить по развивающемуся флагу, и даже можно определить направление ветра, например, он дует слева направо.

Значение расстояний и длин в компьютерном зрении

Очень важной является метрическая информация в науке про компьютерное зрение. Это всевозможные расстояния. Например, для марсохода это особенно важно, потому что команды с Земли идут порядка 20 минут и ответ столько же. Соответственно, связь туда-обратно - 40 минут. И если мы будем составлять план движения по командам Земли, то нужно это учитывать.

Удачно технологии компьютерного зрения интегрированы в видеоиграх. По видео можно построить трёхмерные модели объектов, людей, а по пользовательским фотографиям можно восстановить трёхмерные модели городов. А затем гулять по ним.

Компьютерное зрение – это достаточно широкая область. Она тесно переплетается с разными другими науками. Частично компьютерное зрение захватывает область обработки изображений и иногда выделяет область машинного зрения, исторически так сложилось.

Анализ, распознавание образов – путь к созданию высшего разума

Разберем эти понятия отдельно.

Обработка изображений – это область алгоритмов, в которых на входе и на выходе - изображение, и мы уже с ним что-то делаем.

Анализ изображения – это область компьютерного зрения, которое фокусируется на работе с двухмерным изображением и делает из этого выводы.

Распознавание образов – это абстрактная математическая дисциплина, которая распознаёт данные в виде векторов. То есть на входе - вектор и нам что-то с ним нужно делать. Откуда этот вектор, нам не так уж принципиально знать.

Компьютерное зрение – это изначально было восстановление структуры из двухмерных изображений. Сейчас эта область стала более широкой и её можно трактовать вообще как принятие решений о физических объектах, основываясь на изображении. То есть это задача искусственного интеллекта.

Параллельно с компьютерным зрением совершенно в другой области, в геодезии, развивалась фотограмметрия — это измерение расстояний между объектами по двухмерным изображениям.

Роботы могут «видеть»

И последнее - это машинное зрение. Под машинным зрением подразумевается зрение роботов. То есть решение некоторых производственных задач. Можно сказать, что компьютерное зрение – это одна большая наука. Она объединяет в себе некоторые другие науки частично. А когда компьютерное зрение получает какое-то конкретное приложение, то оно превращается в машинное зрение.

Область компьютерного зрения имеет массу практических применений. Оно связано с автоматизацией производства. На предприятиях эффективнее становится заменять ручной труд машинным. Машина не устаёт, не спит, у неё ненормированный рабочий график, она готова работать 365 дней в году. А значит, используя машинный труд, мы можем получить гарантированный результат в определённое время, и это достаточно интересно. Все задачи для систем компьютерного зрения имеют наглядное применение. И нет ничего лучше, чем увидеть результат сразу по картинке, только на стадии расчётов.

На пороге в мир искусственного интеллекта

Плюс области – это сложно! Существенная часть мозга отвечает за зрение и считается, что если научить компьютер «видеть», то есть в полной мере применить компьютерное зрение, то это одна из полных задач искусственного интеллекта. Если мы сможем решить проблему на уровне человека, скорее всего, одновременно мы решим задачу ИИ. Что очень хорошо! Или не очень хорошо, если смотреть «Терминатор 2».

Почему зрение — это сложно? Потому что изображение одних и тех же объектов может сильно разниться в зависимости от внешних факторов. В зависимости от точек наблюдения объекты выглядят по-разному.

К примеру, одна и та же фигура, снятая с разных ракурсов. И что самое интересное, у фигуры может быть один глаз, два глаза или полтора. А в зависимости от контекста (если это фото человека в футболке с нарисованными глазами), то глаз может быть и больше двух.

Компьютер ещё не понимает, но уже «видит»

Ещё один фактор, создающий сложности - это освещение. Одна и та же сцена с разным освещением будет выглядеть по-разному. Размер объектов может варьироваться. Причем объектов любых классов. Ну как можно сказать о человеке, что его рост 2 метра? Никак. Рост человека может составлять и 2.3 м, и 80 см. Как и объектов других типов, тем не менее это объекты одного и того же класса.

Особенно живые объекты претерпевают самые разнообразные деформации. Волосы людей, спортсмены, животные. Посмотрите снимки бегущих лошадей, определить, что происходит с их гривой и хвостом просто невозможно. А перекрытие объектов на изображении? Если подсунуть такую картинку компьютеру, то даже самая мощная машина затруднится выдать правильное решение.

Следующий вид — это маскировка. Некоторые объекты, животные маскируются под окружающую среду, причем достаточно умело. И пятна такие же и расцветка. Но тем не менее мы их видим, хотя не всегда издалека.

Ещё одна проблема – это движение. Объекты в движении претерпевают невообразимые деформации.

Многие объекты очень изменчивы. Вот, к примеру, на двух фото ниже объекты типа "кресло".

И на этом можно сидеть. Но научить машину, что такие разные вещи по форме, цвету, материалу все являются объектом "кресло" - очень сложно. В этом и состоит задача. Интегрировать методы компьютерного зрения – это научить машину понимать, анализировать, предполагать.

Интеграция компьютерного зрения в различные платформы

В массы компьютерное зрение начало проникать ещё в 2001 году, когда создали первые детекторы лиц. Сделали это два автора: Viola, Jones. Это был первый быстрый и достаточно надёжный алгоритм, который продемонстрировал мощь методов машинного обучения.

Сейчас у компьютерного зрения есть достаточно новое практическое применение - распознавание человека по лицу.

Но распознавать человека, как показывают в фильмах - в произвольных ракурсах, с разными условиями освещения - невозможно. Но решить задачу, один это или разные люди с разным освещением или в разной позе, похожие, как на фотографии в паспорте, можно с высокой степенью уверенности.

Требования к паспортным фотографиям во многом обусловлены особенностью алгоритмов распознавания по лицу.

К примеру, если у вас есть биометрический паспорт, то в некоторых современных аэропортах вы можете воспользоваться автоматической системой паспортного контроля.

Нерешенная задача компьютерного зрения – это способность распознавать произвольный текст

Возможно, кто-то пользовался системой распознавания текста. Одна из таких - это Fine Reader, очень популярная в Рунете система. Есть много форм, где нужно заполнять данные, они прекрасно сканируются, информация распознаётся системой очень хорошо. А вот с произвольным текстом на изображении дело обстоит гораздо хуже. Эта задача пока остаётся нерешенной.

Игры с участием компьютерного зрения, захват движения

Отдельная большая область — это создание трёхмерных моделей и захват движения (который довольно успешно реализован в компьютерных играх). Первая программа, компьютерное зрение использующая, — система взаимодействия с компьютером при помощи жестов. При ее создании было много чего открыто.

Сам алгоритм устроен довольно просто, но для его настройки потребовалось создать генератор искусственных изображений людей, чтобы получить миллион картинок. Суперкомпьютер с их помощью подобрал параметры алгоритма, по которым он теперь работает наилучшим образом.

Вот так миллион изображений и неделя счётного времени суперкомпьютера позволили создать алгоритм, который потребляет 12% мощности одного процессора и позволяет воспринимать позу человека в реальном времени. Это система Microsoft Kinect (2010 год).

Поиск изображений по содержанию позволяет загружать фотографию в систему, и по результатам она выдаст все снимки с таким же содержанием и сделанные с того же ракурса.

Примеры компьютерного зрения: трёхмерные и двухмерные карты сейчас делаются с его помощью. Карты для навигаторов автомобилей регулярно обновляются по данным с видеорегистраторов.

Существует база с миллиардами фотографий с геометками. Загружая снимок в эту базу, можно определить, где он был сделан и даже с какого ракурса. Естественно, при условии, что место достаточно популярное, что в своё время там побывали туристы и сделали ряд фотографий местности.

Роботы повсюду

Робототехника в нынешнее время повсюду, без неё никак. Сейчас существуют автомобили, в которых есть специальные камеры, распознающие пешеходов и дорожные знаки, чтобы передавать команды водителю (такая в некотором смысле компьютерная программа для зрения, помогающая автолюбителю). И есть полностью автоматизированные роботы-автомобили, но они не могут полагаться только на систему видеокамер без использования большого количества дополнительной информации.

Современный фотоаппарат — это аналог камеры-обскура

Поговорим про цифровое изображение. Современные цифровые камеры устроены по принципу камеры-обскуры. Только вместо отверстия, через которое проникает луч света и проецирует на задней стенке камеры контур предмета, у нас имеется специальная оптическая система под названием объектив. Задачей ее является собрать большой пучок света и преобразовать его таким образом, чтобы все лучи проходили через одну виртуальную точку с целью получить проекцию и сформировать изображение на плёнке или матрице.

Современные цифровые фотоаппараты (матрица) состоят из отдельных элементов – пикселей. Каждый пиксель позволяет измерять энергию света, который падает на этот пиксель суммарно, и на выходе выдавать одно число. Поэтому в цифровой камере мы получаем вместо изображения набор измерений яркости света, попавшего в отдельный пиксель — компьютерные поля зрения. Поэтому при увеличении изображения мы видим не плавные линии и четкие контуры, а сетку из окрашенных в различные тона квадратиков – пикселей.

Ниже вы видите первое цифровое изображение в мире.

Но что на этом изображении отсутствует? Цвет. А что такое цвет?

Психологическое восприятие цвета

Цвет - это то, что мы видим. Цвет объекта, одного и того же предмета для человека и кошки будет разным. Так как у нас (у людей) и у животных оптическая система – зрение, отличается. Поэтому цвет – это психологическое свойство нашего зрения, возникающее при наблюдении объектов и света. А не физическое свойство объекта и света. Цвет - это результат взаимодействия компонентов света, сцены и нашей зрительной системы.

Программирование компьютерного зрения на Python с помощью библиотек

Если вы решили всерьёз заняться изучением компьютерного зрения, стоит сразу приготовиться к ряду трудностей, наука эта не самая лёгкая и прячет в себе ряд подводных камней. Но "Программирование компьютерного зрения на Python" в авторстве Яна Эрика Солема - это книга, в которой все излагается максимально простым языком. Здесь вы познакомитесь с методами распознавания различных объектов в 3D, научитесь работать со стереоизображениями, виртуальной реальностью и многими другими приложениями компьютерного зрения. В книге достаточно примеров на языке Python. Но пояснения представлены, так сказать, обобщённо, дабы не перегрузить слишком научной и тяжелой информацией. Труд подойдёт студентам, просто любителям и энтузиастам. Скачать эту книгу и другие про компьютерное зрение (pdf-формата) можно в сети.

На данный момент существуют открытая библиотека алгоритмов компьютерного зрения, а также обработки изображений и численных алгоритмов OpenCV. Это реализовано на большинстве современных языков программирования, имеет открытый исходный код. Если говорить про компьютерное зрение, Python использующее в качестве языка программирования, то это также имеет поддержку данной библиотеки, кроме того, она постоянно развивается и имеет большое сообщество.

Компания "Майкрософт" предоставляет свои Api-сервисы, способные обучить нейросети для работы именно с изображениями лиц. Есть возможность применять также компьютерное зрение, Python использующее в качестве языка программирования.

fb.ru

Компьютерное зрение. Современный подход | Форсайт Дэвид, Понс Жан

Автор: Форсайт Д., Понс Ж.

Год: 2004

Издательство: Вильямс

Формат: DjVu

Качество: Сканированные страницы

Количество страниц: 466

Описание

Компьютерное зрение — это одна из самых востребованных областей на современном этапе развития цифровых компьютерных технологий.

Оно требуется на производстве, при управлении роботами, при автоматизации процессов, в медицинских и военных приложениях, при наблюдении со спутников и при работе с персональными компьютерами, в частности поиске цифровых изображений.

Книга ориентирована на широкий круг читателей, интересующихся данной областью, в первую очередь — на студентов и преподавателей технических вузов, занимающихся аналитической геометрией, компьютерной графикой, обработкой изображений и робототехникой.

Книга построена в форме сборника лекций (по возможности независимых), посвященных разнообразным вопросам, так что ее можно использовать и как учебник по компьютерному зрению .

Оглавление

Предисловие

Часть 1. Формирование изображений и модели изображений

1 Камеры2 Геометрические модели камер3 Геометрическая калибровка камер4 Радиометрия - измерение света5 Источники, тени и затенение6 Свет

Часть 2. Первые этапы: одно изображение

7 Линейные фильтры8 Определение краев9 Текстура

Часть 3. Первые этапы: несколько изображений

10 Геометрия нескольких проекций11 Стереозрение12 Определение аффинной структуры по движению13 Определение проективной структуры по движению часть 4 компьютерное зрение: средний уровень14 Сегментация через кластеризацию15 Сегментация через подбор модели16 Сегментация и подбор с использованием вероятностных методов17 Сопровождение с использованием линейных динамических моделей

Часть 5. Верхний уровень компьютерного зрения: геометрические методы

18 Зрение на основе модели19 Гладкие поверхности и их контуры20 Аспектные графы21 Дальностные данные

Часть 6. Верхний уровень: вероятностные методы и методы логического вывода

22 Поиск шаблонов с использованием классификаторов23 Распознавание через связь шаблонов24 Геометрические шаблоны через пространственные связи

Часть 7. Приложения

25 Поиск в цифровых библиотеках26 Визуализация на основе изображений

ЛитератураПредметный указатель

Предисловие

Компьютерное зрение — это пограничная область знаний. И как всякая пограничная область она интересна для изучения и непредсказуема, здесь часто нет авторитетов, на которые можно сослаться, — многие полезные идеи не имеют под собой теоретической основы, а некоторые теории бесполезны на практике; изученные области весьма различаются, и часто кажется, что всякая связь между ними отсутствует. Тем не менее, в этой книге мы попытались представить в некоторой степени упорядоченную картину этой области знаний.

В нашем понимании "компьютерное зрение", или просто "зрение" (заранее просим прошения у специалистов по зрению людей или животных) — это вид деятельности, в котором для извлечения данных применяются статистические методы и используются модели, построенные с помощью геометрии, физики и теории обучения.

Таким образом, на наш взгляд компьютерное зрение основывается на четком представлении о камерах и физическом процессе формирования изображения (часть I), получении простых выводов на основе изучения набора отдельных пикселей (часть II), умении суммировать информацию, полученную из множества изображений (часть III), упорядочении группы пикселей с целью их разделения или получения информации о форме (часть IV), распознавании объектов с помощью геометрической информации (часть V) или вероятностных методов (часть VI).Компьютерное зрение применяется довольно широко как в относительно старых областях (например, управление мобильными роботами, промышленные средства наблюдения, военные приложения), так и в сравнительно новых (взаимодействие человек/компьютер, поиск изображения в цифровых библиотеках, анализ медицинских изображений и реалистичная передача смоделированных сцен в компьютерной графике) Некоторые иэ этих приложений обсуждаются в части VII.

Зачем изучать зрение

Отличительная черта компьютерного зрения — это извлечение описаний из изображений или последовательности изображений.

Это весьма полезная особенность.

Процесс снятия изображения обычно недеструктивен, кроме того, он достаточно прост и на сегодняшний момент недорог. Описания, необходимые пользователям, могут в большой мере зависеть от области их применения.

Например, такой аспект компьютерного зрения, как определение структуры по движению, позволяет из серии изображений получить представление о том, что изображено на рисунке и как движется камера.

В индустрии развлечений подобные методы применяются для отсеивания движения и построения трехмерных компьютерных моделей зданий с сохранением структуры.

Эти модели применяются там, где нельзя использовать настоящие здания (их поджигают, взрывают и т.п.). С помощью небольшого числа фотографий можно получить хорошие, простые, точные и удобные модели.

Рассмотрим другую ситуацию: люди, желающие контролировать работу мобильных роботов. В этом случае сведения об области, где используется робот, обычно не представляют значительного интереса, важно лишь местонахождение робота в этой области. Таким образом, здесь отсеивается информация о структуре и отслеживается движение, что позволяет определить точное местонахождение робота.

Есть еще целый ряд других важных областей применения компьютерного зрения.

Это, например, работа с медицинскими изображениями: создание программных систем, которые могут улучшать набор изображений, выявлять на них важные моменты или события либо визуализировать информацию, полученную из изображений.

Другая важная область — различные технические проверки, когда по изображениям объектов определяется, соответствуют ли объекты спецификации.

Третья сфера применения компьютерного зрения — интерпретация фотографий, сделанных со спутника, как в военных целях (например, может потребоваться программа, выявляющая интересные, с военной точки зрения, события в указанном регионе или определяющая вред, нанесенный в результате бомбардировки), так и в гражданских (какой урожай кукурузы будет в этом году? сколько осталось тропических лесов?).

Четвертая область — это упорядочение и структурирование коллекций картин. Теперь пользователь уже умеет находить нужную информацию в текстовых библиотеках (хотя и здесь имеется ряд сложных, нерешенных вопросов), но еще не всегда знает, что делать с библиотеками статических или движущихся изображений.

Купить или скачать книгу

Все файлы на сайте, прежде чем выкладываются, проверяются на вирусы. Поэтому мы даем 100% гарантию чистоты файлов.

Нажмите на ссылку ниже, чтобы скачать книгу:

Yandex.Narod " target="_blank" rel="nofollow">► Скачать книгу ◄

zreni.ru

С чего начать: подборка курсов по компьютерному зрению | Статья

25 ноября 2017, 11:30

Предположим, у вас есть идея научить бездушный ноутбук узнавать вашего кота. Или наводить смартфон на игроков чемпионата по баскетболу, чтобы приложение подсказывало вам их имена, годы рождения, процент попаданий и годовую зарплату. Всё это — это поводы углубиться в изучение машинного зрения.

Читать далее

Компьютерное (машинное) зрение — это набор технологий, методов и алгоритмов, целью которых является «научить бездушный компьютер обозревать окружающую действительность с некоторой долей оразумения».

Сегодня процесс машинного зрения реализуется через «фильтрацию» изображений на необходимый ряд признаков и обработку результатов этой фильтрации. Поэтому, прежде чем начинать разговор об излюбленных нейросетях и машинном обучении, важно понять, что основа компьютерного зрения — это именно обработка изображений. Таким образом, единственный способ позволить компьютеру «увидеть» нашу реальность — дать ему ряд нужных признаков и попросить найти их на изображении.

К примеру, есть задача научить ваш MacBook узнавать кота в видеочате в скайпе. Для начала нужно «рассказать» машине об основных признаках кота. Затем — показывать фото котов: белых, серых, маленьких, больших, размытых, четких, в светлой комнате, темной. Чем больше разных котов увидит машина, тем лучше она адаптируется и с большей вероятностью начнёт узнавать кота в разных условиях. Такая методика называется глубинным обучением, оно же и является основной сложностью сегодня, потому что исследователь всегда остаётся ограничен базой изображений.

Затем можно отправиться в полевые условия и начать видеочат с котом. Компьютер захватывает сцену реального мира из видеопотока, сканирует её на наличие признаков кота, и, найдя их, сигнализирует об этом.

Исследователи пытаются найти совершенно иные подходы к компьютерному зрению, однако анализ изображения и машинное обучение — пока единственный способ «увидеть» нас для компьютера. 

  1.  

    Introduction to Computer Vision, Udacity (бесплатно). Четырёхмесячный курс о классической теории компьютерного зрения. Визуальная система человека и работа с изображением: обработка, освещение, движение, классификация и распознавание;
  2. Computer Vision, Center For Research in Computer Vision (бесплатно). Курс из 20 лекций по 45-90 минут. Академично и глубоко рассматриваются фундаментальные матрицы изображений, оптический поток, масштабно-инвариантное преобразование признаков, различные алгоритмы и методы работы с изображением;
  3. Введение в компьютерное зрение, Лекториум (бесплатно). В курсе рассматривают как базовые понятия компьютерного зрения, так и ряд современных алгоритмов, позволяющих решать практические задачи. Отдельно отмечают связь методов компьютерного зрения с обработкой зрительной информации в мозгу человека;
  4. Deep Learning in Computer Vision, Coursera (бесплатно). Этот пятый курс из семи в специализации «Машинное обучение». Речь пойдет о распознавании изображений и видео, включая классификацию, поиск изображений, методы обнаружения объектов, отслеживание объектов в видео, распознавание человеческих действий и, наконец, редактирование и создание новых изображений;
  5. Computer Vision Courses, Udemy (платно, от 10$). Ряд платных курсов, среди которых можно найти и изучить основы машинного обучения, наиболее известнын готовые библиотеки и технологии для работы с CV.

Часть онлайн-курсов посвящена работе с OpenCV — одной из популярных библиотек с открытым кодом, которая предоставляет набор типов данных и алгоритмов для обработки изображений:

Хотя компьютерное зрение — область, которую невозможно объять без реального программирования, подковаться теоретически тоже будет полезно. Для этого стоит обратить внимание на следущие издания:

  1. Richard Szeliski, Computer Vision: Algorithms and Applications;
  2. Simon J. D. Prince, Computer Vision: Models, Learning, and Inference;
  3. Hairong Qi, Wesley E. Snyder Fundamentals of Computer Vision.

Можно старым «дедовским способом» найти работу с подходящим проектом, и узнавать, учиться и экспериментировать непосредственно в процессе.

Исследователи прогнозируют использование компьютерного зрения в будущем практически во всех областях жизни человека: робототехника, биометрика, медицина, индустрия развлечений. По прогнозам Microsoft, к 2027 году появятся решения, способные не просто записывать изображение окружающего мира, а действительно «видеть» его, помогать в работе и в повседневной жизни людям самых разных сфер деятельности.

dev.by