Реальная база готовых
студенческих работ

Авторам Вопрос-ответ

Узнайте стоимость индивидуальной работы!

Тип задания

Предмет

Ваше имя

Вы нашли то, что искали?

Да, спасибо!

Нет, пока не нашел

Узнайте стоимость индивидуальной работы

Тип задания

Предмет

Ваше имя

это быстро и бесплатно

Оформите заказ сейчас и получите скидку 100 руб.!

Тип задания

Предмет

Ваше имя

Доклад на тему: "Большие данные"

Тип Доклад

Предмет Информатика

ID (номер) заказа
2624212

Просмотров

427

Размер файла

1.38 Мб

Ознакомительный фрагмент работы:

В XXI веке информации стало настолько много, что хранить и обрабатывать ее традиционными способами стало очень сложно, к тому же данные, обработанные традиционно, появляются, как правило, с опозданием. Решением данной проблемы занимается Big Data. Данное направление делает самый ценный ресурс XXI – информацию доступным каждому, что позволит в дальнейшем достичь высот во всех отраслях человеческой деятельности.Термин «большие данные» (Big Data) существует уже почти двадцать лет, став за это время всемирно обсуждаемым. За историю своего недолгого существования он успел получить широкую популярность – с одной стороны эти технологии вызывают некоторый скепсис, с другой стороны большое число компаний уже внедрили Big Data в свою деятельность, что позволило оптимизировать работу с данными. Этим обусловлена актуальность выбранной темы.Целью работы выступает стало проведение анализа традиционных методов сбора и обработки данных с новой парадигмой Big Data. Для достижения поставленной цели необходимо решить ряд исследовательских задач:исследовать историю обработки данных;проанализировать предпосылки зарождения Больших данных;изучить инструменты Big Data;ознакомиться с программными продуктами ведущих производителей, предназначенных для работы с Big Data;посмотреть примеры применения подхода Big Data в сферах образования;Теоретическая часть курсовой работы основана на пособиях, указанных в списке источников.Работа имеет традиционную структуру и состоит из введения, четырех параграфах, заключения, списка использованных источников и литературы.1 ИСТОРИЯ ОБРАБОТКИ ДАННЫХС развитием технологий количество данных стало увеличиваться в геометрической прогрессии. Традиционные инструменты перестали покрывать потребность в обработке и хранении информации. Для обработки данных, объем которых превышает сотни терабайт и постоянно увеличивается, были созданы специальные алгоритмы. Их принято называть «big data».Большие данные - объемные, высокоскоростные информационные ресурсы с большим разнообразием, которые требуют экономически эффективных, инновационных форм обработки, позволяющие улучшить понимание, принятие решений и автоматизацию процессов. В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях - весь мировой объём данных, и вытекающих из этого трансформационных последствий. Если давать краткое определение, то Большие данные – это данные, которые не помещаются в оперативную память компьютера. По сути, это определение обозначает то, что свойство “быть большим” является не самостоятельным свойством данных, а зависит от характеристики системы, применяемой для их обработки.Термин Big Data был предложен Клиффордом Линчем (Clifford Lynch) (рисунок 1), редактором журнала Nature, который 3 сентября 2008 года выпустил отдельный номер, главной темой которого была «Как могут повлиять на будущее науки, технологии, открывающие возможности работы с большими объёмами данных?» (Оригинал: «Big data: How do your data grow?»). Термин «Большие данные» был предложен по аналогии с терминами «Большая нефть», «Большая руда» и т. д.Рисунок 1 – Клиффорд ЛинчВ 2005 году компании начали понимать масштабы создаваемого контента пользователями интернет-сервисов (Facebook, YouTube и др.). Тогда же начала работу первая платформа, предназначенная для взаимодействия с большими наборами данных - Hadoop. Сегодня она представляет собой большой стек технологий для обработки информации. Чуть позже популярность начала набирать NoSQL - совокупность методов для создания систем управления большими данными.Рисунок 2– Прогнозируемый график роста объемов данных в мире к 2025 году по данным компании Seagate Размер больших данных в 2012 году определялся от нескольких десятков терабайт до петабайт (250). Термин большие данные может быть причислен к данным, связанным с высочайшей изменчивостью источников данных, а также обладающим сложными взаимосвязями и трудностями изменения или удаления отдельных записей. Большие данные характеризуются гигантским объёмом, значительной скоростью поступления данных, а также многообразием самих данных. Для таких данных требуются новейшие способы обработки, которая в дальнейшем может привести к улучшению методов принятия решений, оптимизации процессов и поиска закономерностей.К 2011 году понятие Big Data стало набирать популярность, в основном, в крупных корпорациях таких как Microsoft, IBM, Oracle, EMC, HP и др.В 2011 году исследовательская компания Gartner отмечает большие данные как тренд номер два в информационно-технологической инфраструктуре после виртуализации. По прогнозам подразумевается, что внедрение технологий Big Data крупно повлияет на информационные технологии в сферах производства, здравоохранении, торговли, государственного управлении, а также в отраслях, в которых регистрируются индивидуальные перемещения ресурсов. С 2013 года большие данные начинают преподавать в университетах в рамках вузовских программ по науке о данных, вычислительным наукам и инженерии.Причины появления Big Data Инновационные разработки в области Big Data начинались не в маленьких стартапах, как это часто бывает в IT-индустрии, а в больших компаниях. Так, например, технология распределенной обработки данных MapReduce была разработана компанией Google, a Hadoop, являющийся свободным программным обеспечением для выполнения распределенных вычислений на кластерах из сотен и тысяч узлов, сразу после создания активно поддержала компания Yahoo. Большинство программных продуктов в области Big Data являются свободными, а их адаптацией и продвижением занимаются те самые стартапы. Традиционные поставщики решений в области хранения и обработки данных, такие как IBM и 3.Существует множество характеристик для Больших данных, но здесь будут рассматриваться самые основные. Сфера Больших Данных характеризуется следующими признаками: Volume (объем): накопленная база данных представляет собой гигантский объем информации, для которого обработка и хранение традиционными способами являются трудоёмкими процессами. Такой объем нуждается в новых подходах и в более усовершенствованных инструментах. Velocity (скорость): данный признак указывает как на увеличивающуюся скорость накопления, так и на скорость обработки данных. В последнее время стали более востребованы технологии обработки данных в реальном времени. Variety (многообразие): данная характеристика означает возможность одновременной обработки структурированной и неструктурированной информации различных форматов. Главным отличием структурированной информации является возможность классификации. Примером такой информации может служить информация о клиентских транзакциях. Veracity (достоверность данных): в настоящее время достоверность имеющихся данных является важнейшим критерием для пользователей. Недостоверная информация приводит к затруднению анализа данных. Value (ценность накопленной информации): Большие Данные должны быть полезны в усовершенствовании бизнес-процессов, составлении отчетности или оптимизации расходов компаний. Первые три характеристики определяют так называемый принцип «Трёх V» (рисунок 3).Рисунок 3 – Принцип «Трёх V»По рисунку 3 видно, что решающую роль в больших данных играют объем информации, скорость обработки, а также разнообразие появляющихся данных.Объём относится к наборам данных, размер которых выходит за пределы возможностей программных средств типичной базы данных сбора, хранения, обработки и анализа данных.Разнообразие определяет способность обработки множества типов, источников и форматов данных от сенсоров, умных устройств, социальных сетей. Также разнообразие характеризуется способностью интегрировать все большее число источников, содержащих различные структурированные, полу структурированные данные, извлекаемыми из web-страниц, web log файлов, e-mail, документов и др. Скорость определяет реакцию на текущую информацию за время, ограниченное приложением. Примером является потоковая обработка (например, GPS данных в реальном времени).Объем генерируемой информации стал увеличиваться с появлением крупных интернет-сервисов. Пользователи загружают фотографии, просматривают контент, ставят «лайки» и т.п. Вся эта информация собирается в больших объемах для дальнейшего анализа, после которого можно вносить улучшения в работу сервисов. Например, социальные сети используют большие данные для показа пользователям релевантной рекламы (то есть той, которая соответствует их потребностям и интересам) в таргете. Это позволяет соцсетям продавать бизнесу возможность проведения точных рекламных кампаний.Большие данные могут быть классифицированы в соответствии с несколькими главными компонентами. Интеллект-карта, представленная на рисунке 4.Рисунок 4 – Интеллект-карта экосистемы Больших данныхИсточниками Big Data являются:социальные сети и их данные;журналы доступа пользователей веб-сайтов;сенсорные сети;тексты и документы из Интернета;научные данные (астрономия, геном человека, исследования атмосферы, биохимия, биология);данные министерства обороны;медицинские наблюдения;фото- и видеоархивы;данные электронной коммерции.Основной причиной появления больших данных являются достижения в области мобильных устройств, такие как цифровое видео, фотографии, аудио, а также современные системы электронной почты и обмена текстовыми сообщениями. Пользователи получают данные в количествах, которые нельзя было представить десять лет назад; при этом появляются новые приложения, такие как Google Translate, предоставляющие функции сервера больших данных – перевод произнесенных или введенных с мобильных устройств фраз.2 ИНСТРУМЕНТЫ BIG DATAВ современных реалиях данные, собираемые компанией, являются фундаментальным источником информации для любого бизнеса. К сожалению, не так-то просто извлечь из него ценные идеи.Проблемы, с которыми сталкиваются все исследователи данных - это объем данных и их структура. Данные не имеют ценности, пока мы их не обработаем. Для этого нам нужно программное обеспечение для больших данных, которое поможет нам в преобразовании и анализе данных.Hadoop - представляет собой набор утилит с открытым исходным кодом, которые облегчают использование сети из многих компьютеров для решения проблем, связанных с большими объемами данных и вычислений. Он обеспечивает программную основу для распределенного хранения и обработки больших данных с использованием модели программирования MapReduce. Все модули в Hadoop разработаны с фундаментальным предположением, что аппаратные сбои являются общими вхождениями и должны автоматически обрабатываться платформой [8].Платформа Hadoop позволяет сократить время на обработку и подготовку данных, расширяет возможности по анализу, позволяет оперировать новой информацией и неструктурированными данными.Главные задачи платформы Hadoop - хранение, обработка и управление данными. Базовая платформа Hadoop состоит из следующих модулей:Hadoop Common - содержит библиотеки и утилиты, необходимые другим модулям Hadoop;Hadoop Distributed File System (HDFS) - распределенная файловая система, которая хранит данные на обычных машинах, обеспечивая очень высокую совокупную пропускную способность кластера;Hadoop Yarn – введенная в 2012 году Платформа, отвечающая за управление вычислительными ресурсами в кластерах и их использование для планирования приложений пользователей;Hadoop MapReduce-реализация модели программирования MapReduce для крупномасштабной обработки данных. Решения, построенные на базе технологии Hadoop, обладают рядом существенных преимуществ. Основные преимущество:снижение времени на обработку данных (при обработке данных на кластере можно существенно сократить время на обработку данных);снижение стоимости оборудования (применение технологии Hadoop позволяет сократить затраты на оборудование, требуемое для хранения и обработки данных, в десятки раз);повышение отказоустойчивости (выход из строя одного или нескольких узлов кластера влияет только на производительность системы, при этом система продолжает корректно работать и предоставлять сервис конечным пользователям);линейная масштабируемость (решение позволяет наращивать производительность просто за счет добавления новых узлов кластера. При этом производительность кластера возрастает линейно);работа с неструктурированными данными (технология позволяет осуществлять сложную обработку любых файлов, в том числе неструктурированных, благодаря чему такие данные могут быть эффективно обработаны и использованы).Map Reduce – технология распределённых вычислений. Основными целями Map Reduce являются разделение логики приложения и организация распределённого взаимодействия.Программист реализует только логику приложения. Распределённая работа в кластере обеспечивается автоматически. Map Reduce работает с данными как с парами ключ - значение, например:смещение в файле: текст;идентификатор пользователя: профиль;пользователь: список друзей;временная метка: событие в журнале.Работа Map Reduce производится в 2 этапа (рисунок 5):Map: выполняется предварительная обработка входных данных. Главный узел разделяет полученные данные на части и передаёт их рабочим узлам. При этом порождаются пары ключ -значение. Как ключи, так и значения могут быть составными. Reduce: происходит свёртка заранее обработанных данных. Рабочие узлы отправляют ответы главному узлу, а он на основе этих данных формирует решение поставленной задачи.Операции Map и Reduce могут выполняться распределённым образом.Рисунок 5 - Схема работы Map ReduceПримеры применения Map Reduceмасштабный статистический анализ и моделирование;анализ и индексация данных;построение масштабируемых алгоритмов машинного обучения;сбор данных DNS по всему миру для обнаружения сетей распределения;контента и проблем с конфигурацией;построение карты всей сети Интернет;распределенный grep;сортировка;поиск web-страниц.Apache Spark предназначен для реализации распределённой обработки слабоструктурированных и неструктурированных данных. Проект позиционируется как инструмент для «молниеносных кластерных вычислений».Spark состоит из ядра и нескольких расширений:Spark SQL: поддерживает запросы данных либо при помощи SQL, либо посредством Hive Query Language. Библиотека возникла как порт Apache Hive для работы поверх Spark (вместо Map Reduce), а сейчас уже интегрирована со стеком Spark. Она не только обеспечивает поддержку различных источников данных, но и позволяет переплетать SQL-запросы с трансформациями кода; получается очень мощный инструмент.Spark Streaming: поддерживает обработку потоковых данных в реальном времени; такими данными могут быть файлы логов рабочего веб-сервера (напр. Apache Flume и HDFS/S3), информация из социальных сетей, например, Twitter, а также различные очереди сообщений, например, Kafka. Spark Streaming получает входные потоки данных и разбивает данные на пакеты. Далее они обрабатываются движком Spark, после чего генерируется конечный поток данных (также в пакетной форме).Spark MLlib: библиотека для машинного обучения, предоставляющая различные алгоритмы, разработанные для горизонтального масштабирования на кластере в целях классификации, регрессии, кластеризации, совместной фильтрации и т.д. Некоторые из этих алгоритмов работают и с потоковыми данными, например, линейная регрессия с использованием обычного метода наименьших квадратов или кластеризация по методу k-средних.GraphX: библиотека для манипуляций над графами и выполнения с ними параллельных операций. Библиотека предоставляет универсальный инструмент для ETL, исследовательского анализа и итерационных вычислений на основе графов. Кроме встроенных операций для манипуляций над графами здесь также предоставляется библиотека обычных алгоритмов для работы с графами, например, PageRank.RapidMiner – это кроссплатформенный инструмент для обработки Big Data с открытым исходным кодом. Он объединяет data science, прогнозную аналитику и технологию машинного обучения, а также предлагает широкий спектр продуктов, позволяющих создавать новые процессы интеллектуального анализа данных.Платформа доступна под различными лицензиями: бесплатная позволяет пользователям использовать 1 логический процессор и до 10 000 строк данных; стоимость коммерческой версии Rapidminer начинается с $2.500 в год.Основные возможности:хорошо развитая облачная интеграция;интерактивные панели мониторинга, которыми легко поделиться интеграция с клиентскими базами данных;создание и валидация прогнозных моделей;разнообразие методов управления данными;прогнозная аналитика на основе Big Data;поддержка клиент-серверной модели.Qubole - это автономная платформа больших данных. Он изучает, оптимизирует и управляет данными. Специалисты по обработке данных могут сосредоточиться исключительно на решении бизнес-задач, а не на управлении фреймворком. Стоимость инструмента от $199 в месяц, но есть вариант подписки, предназначенный для предприятий с несколькими пользователями.Основные возможности:облачная оптимизация;гибкость и простота в использовании;движок с открытым исходным кодом;автоматическое использование процедур, для минимизации повторения ручных действий;встроенные оповещения и рекомендации, оптимизирующие надежность, производительность и затраты на обслуживание.Tableau – инструмент визуализации для бизнес-аналитики и анализа данных. Программное обеспечение содержит три основных продукта: desktop, server, online предназначенные для аналитики, предприятия и использования в облаке соответственно. Проект прост в использовании, может обрабатывать все размеры данных, а также умеет визуализировать данные в реальном времени через web-коннектор. Tableau предлагает бесплатную пробную версию. Подписка начинается от $35 в месяц, в зависимости от издания (desktop/server/online).Основные возможности:обеспечивает совместную работу в режиме реального времени;пользователи могут создавать любой тип визуализации;запросы данных без кода;совместное использование интерактивных панелей мониторинга; подходящих для мобильных устройств;простая и быстрая настройка программного обеспечения;смешивание различных наборов данных.Elasticsearch - это инструмент на основе JSON для поиска и анализа Big Data. Elasticsearch предоставляет децентрализованную библиотеку аналитики и поиск на основе архитектуры REST по решенным вариантам использования. Также платформа Elasticsearch проста в управлении, в высокой степени надежна и поддерживает горизонтальную масштабируемость. Более подробную информацию можно узнать в документации Elasticsearch.Ключевые характеристики Elasticsearch:сборка и поддержка программ-клиентов на нескольких языках, таких как Java, Groovy, NET и Python;интуитивно понятный API для управления и мониторинга данных, который обеспечивает полный контроль и наглядность;возможность комбинировать несколько видов поиска, включая геопоиск, поиск по метрикам, структурированный и неструктурированный поиск и т. д.;использование стандартного API и формата JSON на основе архитектуры REST;расширенные возможности при анализе данных благодаря машинному обучению, параметрам мониторинга, предоставления отчетов и безопасности;актуальная аналитика и параметры поиска для обработки Big Data с помощью Elasticsearch-Hadoop.3 ОТЛИЧИЕ BIG DATA ОТ ТРАДИЦИОННЫХ ДАННЫХБольшие данные отличаются от традиционных данных рядом важных характеристик. Чтобы понять, когда данные переходят в разряд больших, нужно выделить их отличительные признаки. В прошлом, когда большинство наборов данных были относительно небольшими и управляемыми, аналитики могли использовать традиционные инструменты, такие как Excel или статистическую программу, такую как SPSS, для создания значимой информации из данных. Обычно набор данных содержит исторические данные, и обработка этих данных не всегда зависит от времени. Перед обработкой данные загружались в традиционные базы данных. Затем данные, если они не слишком большие, очищались, отфильтровывались, обрабатывались, обобщались и визуализировались с помощью диаграмм, графиком и информационных панелей.Традиционные источники данных с самого начала разрабатывались с учетом определенных требований. Каждый бит данных имел высокую ценность, иначе он не был бы учтен. Поскольку стоимость хранения данных стремится к нулю, источники больших данных, как правило, содержат все, что может быть использовано. Это означает, что при проведении анализа необходимо разбираться в огромном количестве хлама.Традиционные источники данных всегда предполагают присутствие человека. Возьмем, к примеру, розничные или банковские транзакции, записи с содержанием телефонных звонков, доставку товаров или выставление счетов на оплату. Все эти действия подразумевают присутствие человека, который способствует созданию данных. Кто-то должен внести деньги, сделать покупку, позвонить по телефону, отправить посылку или сделать платеж. В каждом случае частью процесса создания новых данных остается человек, совершающий какие-либо действия. С большими данными дело обстоит иначе. Многие источники больших данных генерируются вообще без взаимодействия с человеком, например встроенный в двигатель датчик генерирует данные, даже если никто его об этом не просит [3].По мере роста объемов, скорости и разнообразия наборов данных сложность хранения, обработки и агрегирования данных стала серьезной проблемой для традиционных аналитической инструментов. Большие наборы данных могут быть распределены и обработаны на нескольких географически распределённых физических устройствах, а также в облаке. Инструменты больших данных, такие как Hadoop и Apache Spark, необходимые для этих больших наборах данных, чтобы обеспечить анализ в реальном времени и прогнозное моделирование.Для работы с Большими данными используются сложные системы, в которых можно выделить несколько компонентов или слоёв (Layers). Обычно выделяют четыре уровня компонентов таких систем: прием, сбор, анализ данных и представление результатов (рис. 6). Это деление является в значительной мере условным так как, с одной стороны, каждый компонент в свою очередь может быть разделен на подкомпоненты, а с другой некоторые функции компонентов могут перераспределяться в зависимости от решаемой задачи и используемого программного обеспечения, например, выделяют хранение данных в отдельный слой.Рисунок 6 – Стек работы с Большими даннымиДля работы с Большими данными разработчиками систем создаются модели данных, содержательно связанные с реальным миром. Разработка адекватных моделей данных представляет собой сложную аналитическую задачу, выполняемую системными архитекторами и аналитиками. Модель данных позволяет создать математическую модель взаимодействий объектов реального мира и включает в себя описание структуры данных, методы манипуляции данными и аспекты сохранения целостности данных. Описание разработки моделей данных не является задачей настоящего руководства.Для хранения данных используются распределенные системы различных типов. Это могут быть файловые системы, базы данных, журналы, механизмы доступа к общей виртуальной памяти. Большинство систем хранения ориентированы исключительно на работу с Большими данными, они имеют крайне ограниченное число функций (например, может отсутствовать возможность не только модификации, но и удаления поступивших данных) что объясняется внутренней сложностью создания высокоэффективных распределенных систем. Для того, чтобы работа с данными происходила быстрее системы хранения и обработки данных распараллеливаются в кластере (cluster, группа компьютеров, объединенных сетью для выполнения единой задачи).Традиционным методом работы с массивами информации являются реляционные базы данных. Однако работа с реляционной базой данных на сотни терабайт - это еще не Big Data.В реляционных БД информация распределена дисперсионно, т.е. имеет место изначально заданная четкая структура, изменение которой в уже работающей базе связано с множеством проблем. Таким образом, в силу своей архитектуры, реляционные БД лучше всего подходят для коротких быстрых запросов, идущих однотипным потоком. Сложный же запрос либо потребует перестройки структуры БД, либо, в угоду быстродействию, увеличения вычислительных мощностей. Это указывает на еще одну проблему традиционных баз данных, а именно на сложность их масштабируемости [7].Потоки больших данных далеко не всегда представляют собой особую ценность. Большая часть данных может быть вообще бесполезной. В журнале логов содержится как очень полезная информация, так и не имеющая ценности. Необходимо отсортировать мусор и извлечь ценные и релевантные фрагменты информации. Традиционные источники данных с самого начала разрабатывались так, чтобы содержать на 100% релевантные данные. Это было связано с ограничениями масштабируемости: включение в поток данных чего-то неважного слишком дорого обходилось. Мало того что записи данных были предопределены заранее - каждый фрагмент данных имел высокую ценность. С тех пор изменилось одно важное обстоятельство: мы более не ограничены объемом носителя. Это привело к тому, что большие данные по умолчанию включают всю возможную информацию, а позже приходится разбираться в том, что же из собранного имеет значение. Зато есть гарантия, что ничего не будет упущено, но усложняет процесс анализа больших данных.Самая большая трудность при работе с большими данными может заключаться не в анализе, а в процессе извлечения, преобразования и загрузки данных (ETL), который необходимо наладить перед проведением анализа. ETL - это процесс сбора необработанных данных, их чтения и получения полезных выходных данных.Сначала данные извлекаются (E, extracted) из соответствующего источника. Затем они преобразуются (Т, transformed) путем агрегации, комбинирования и применения функций, чтобы обеспечить возможность их дальнейшего использования. И, наконец, данные загружаются (L, loaded) в среду для анализа данных. Это и есть ETL-процесс [5].Аналитические процессы могут потребовать наличия фильтров, чтобы при получении данных отбросить часть информации. По мере обработки данных будут применяться и другие фильтры. Например, при работе с данными интернет-журнала можно отфильтровать информацию о версии браузера или операционной системы. Такие данные редко бывают нужны. Позднее в процессе обработки можно отфильтровать данные о конкретных страницах или действиях пользователя, которые можно исследовать для решения бизнес-задач.Сложность правил и объем отфильтрованных или сохраненных на каждом этапе данных зависят от источника данных и бизнес-задачи. Для достижения успеха решающее значение имеют правильные процессы загрузки и фильтры. Традиционные структурированные данные не требуют таких усилий, поскольку они заранее исследованы и стандартизированы. Большие данные часто приходится исследовать и стандартизировать в процессе анализа.В технологии обработки больших данных массивов информации выделяют три основных вектора, в рамках которого решаются следующие задачи:сохранить и перевести весь объем поступающей информации в разные единицы измерения ее количества (гигабайт, терабайт или зеттабайт) для дальнейшего хранения, обработки и применения на практике;создать определенную структуру в различных видах данных (текстовая информация, фотоматериалы, видеозаписи, аудио и т.д.);провести анализ Big Data и ввести разные способы для обработки того объема информации, где отсутствует структура; создать разнообразные отчеты аналитической направленности.4 BIG DATA В СФЕРЕ ОБРАЗОВАНИЯВ современном мире на первый план выходит способность оперировать большими данными, с каждым годом стремительно увеличивается объем информации и возможности цифровых технологий. Этому способствуют научный прогресс, виртуализация и автоматизация многих процессов, идет оцифровка данных, а поэтому возникает необходимость их обработки и учета, что влечет за собой взрывной рост вычислительных мощностей и скоростей передачи информации. Сегодня все образовательные организации работают только с малыми данными. Это связано с тем, что в образовательных организациях отсутствует специальная электронная среда, которая содержит много онлайн-контента и как следствие – большое количество взаимодействий пользователей с этим контентом и между собой относительно него. По сути дела, с большими данными работают авторы онлайн-курсов, электронного обучения. Оперирование большими данными в образовании - это технология аналитики образовательной системы, включающей измерение, сбор, анализ и представление структурированных и неструктурированных данных огромных объемов об обучающихся и образовательной среде с целью понимания особенностей функционирования и развития образовательной системы. Исторически система образования накопила значительный объем данных. Вопрос о том, как доступно начать обрабатывать большой объем данных, снимется благодаря появлению и расширенному использованию информационно-коммуникационных технологий.Рисунок 7- Схема внешних и внутренних потоков данных ДГТУВ сфере образования для анализа больших данных выделяются пять основных типов: персональные данные; данные о взаимодействии студентов с электронными системами обучения и друг с другом (электронными учебниками, онлайн-курсами, показатели отказов, скорости просмотра страниц, возвраты к страницам, количество связей, расстояние связей, количество просмотров страниц одним пользователем и т.д.); данные об эффективности учебных материалов (какой тип ученика с какой частью контента взаимодействует, результаты взаимодействия, образовательные результаты и т.д.); административные (общесистемные) данные (посещаемость, пропуски по болезни, количество проведенных уроков и т.д.); прогнозные (предполагаемые) данные (какова вероятность участия ученика в той или иной деятельности, какова вероятность выполнения задания и т.д.). На основе технологий больших данных можно улучшить и упростить принципы оценки качества образовательной среды. Для обработки и хранения информации о качестве образовательной среды с использованием больших данных требуется большой объем дисковой памяти. При правильном подходе с помощью цифровых технологий больших данных может упроститься процесс отслеживания отметок обучающихся и выявления проблемных зон обучения. Оперативно реагировать на любые изменения процесса обучения возможно, получая и анализируя данные на автоматизированном уровне, что позволяет достигнуть гибкости, масштабируемости, доступности, безопасности, конфиденциальности и простоты использования учебной информации. Возможности Big Data пока еще не используются в достаточной степени для совершенствования качества образовательной деятельности. Однако стремительное развитие цифровых технологий может сделать Big Data эффективным инструментом в оценке качества образования. Используя в образовании большие данные, нужно подавать материал так, чтобы было интересно учиться, выявлять закономерности и использовать их.Технология Big Data снимает со студента различные данные и анализирует, как конкретный студент учится. Фиксирует, где студент ошибается, что решает медленно, что решает быстро, когда отвлекается и составляет полный детальный портрет обучаемого: сколько времени и на какие действия потратил, правильно решил или нет, сколько перемещал мышкой по экрану, сколько раз возвращался к решению одной и той же задачи. Big Data помогает обработать опыт сотен тысяч преподавателей и студентов, и на основе анализа получить эффективную образовательную методику. Такая образовательная методика становится продуктом массового опыта. С помощью технологии Big Data можно персонализировать контент под потребности каждого студента. Например, Big Data анализирует сотни тысяч текстовой информации в глобальной сети и подбирает тот текст, который содержит необходимое количество нужных к изучению новых слов и фраз. Используемые методы в анализе Big Data, родом из распознавания образов, компьютерного обучения, статистики и психометрии. В современном высшем образовании большие данные пока не такие уж и большие. Существующие сегодня специальные репозитории «DataShops», позволяют собирать данные и прямо там их анализировать. На сегодняшний день в самом популярном репозитории «PSLC DataShop», собрана и хранится информация, обработанная более чем за 260 000 часов, проведенных студентами в образовательных программах, - это примерно 55 миллионов действий, ответов и различных результатов. Одна из самых интересных моделей работы с Big Data - это прогнозирование, где комбинация известных данных позволяет обеспечить прогноз искомого неизвестного. Множественные данные собираются из записей интернет-сервисов, студенческих систем, опросов, социальных сетей и различных наблюдений во время экспериментов. Сбор и обработка подобных данных, это огромное дело, так как нужно знать, на какие моменты смотреть, и уметь выявлять нужную полезную информацию. Модель может работать для прогнозирования настоящего, используя статистику за прошедший час, узнавая, интересно ли сейчас студенту смотреть онлайн-курс, или прогнозирования будущего (используя предыдущие оценки), сможет ли студент решить следующую задачу и с каким результатом. Современные алгоритмы технологии Big Data принимают в расчет цену ошибки и эффективность правильного использования образовательной системы [11].Электронное образование во всем мире стремительно развивается и основной проблемой становится своевременное обеспечение учащихся качественной учебной информацией. Эту задачу невозможно решить без анализа большого потока информации, поступающего в информационную среду электронного образования от участников образовательного процесса – студентов, преподавателей, администрации и т.д. B этой среде существует большое количество различных типов данных, как структурированных (данные, элементы которых являются адресными для эффективного анализа), так и неструктурированных (данные, которые не организованы заранее определенным образом или не имеют заранее определенной модели данных, поэтому они не подходят для основной реляционной базы данных), обработку которых трудно осуществить традиционными статистическими методами. Целью исследования является показать, что для разработки и внедрения успешных систем электронного обучения необходимо использовать новые технологии, которые позволили бы хранить и обрабатывать большие потоки данных.Другой важной проблемой электронного образования является выявление новых, порою скрытых, взаимосвязей в больших данных, новых знаний , которые могут быть использованы для улучшения образовательного процесса и повышения эффективности его управления. Для классификации электронных образовательных ресурсов, выявления паттернов студентов со сходными психологическими, поведенческими и интеллектуальными характеристиками, разработки индивидуализированных учебных программ в статье предлагается использовать методы анализа больших данных. Для обработки и персонализации Больших Данных в среде электронного образования предлагается использовать технологии MapReduce, Hadoop, NoSQL и другие.ЗАКЛЮЧЕНИЕРазвитие технологий в современном мире позволяет человеку иметь доступ ко все большим объемам данных из самых различных областей жизнедеятельности. И рост объемов собранной информации постоянно ускоряется: растет как число источников данных, так и детализация самих данных. Пространственные данные в современном мире без тени сомнения являются «большими данными». А так как пространственные данные в настоящее время активно используются в различных областях научной и повседневной деятельности человека, возникает необходимость в надежных и производительных вычислительных системах для хранения и обработки пространственных данных.В процессе курсового исследования нами была проделана следующая работа:исследованы историю обработки данных;проанализированы предпосылки зарождения Больших данных;изучены инструменты Big Data;ознакомлены с программными продуктами ведущих производителей, предназначенных для работы с Big Data;посмотрены примеры применения подхода Big Data в сферах образования.Таким образом выдвинутая ранее гипотеза полностью подтвердилась. Цель курсовой работы достигнута, поставленные задачи освещены полностью. Были рассмотрены основные понятия и технологии, связанные с Большими данными.Считаем, что все задачи курсового исследования решены и цель достигнута.СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ1. Oracle для “больших данных” [Электронный ресурс] – Режим доступа: //http://www.storagenews.ru/57/Oracle_BigData_57.pdf2. Большие данные и их место в ЕСМ. 2014. [Электронный ресурс] – Режим доступа: //http://ecm-journal.ru/post/Bolshie-dannye-i-ikh-mesto..3. В чем принципиальное отличие концепции BigDataот традиционного подхода BI? [Электронный ресурс] – Режим доступа: //http://www.topsbi.ru/default.asp?artID=21674. Дивакар, М. Архитектура и шаблоны больших данных / М. Дивакар, Ш. Кхупат, Ш. Джайн, [Электронный ресурс] – Режим доступа: https://www.ibm.com/developerworks/ru/library/bdarchpatterns1/index.html5. Кобзаренко, Д. Н. Анализ больших данных: учебное пособие. / Кобзаренко, Д. Н, А.Г Мустафаев - ГАОУ ВО «ДГУНХ», 2019.6. Моррисон А. Большие Данные: как извлечь из них информацию / А. Моррисон [и др.] // Технологический прогноз. Ежеквартальный журнал. – 2010. – №3. – С. 22–29.7. Натан М., Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени / М. Натан, У. Джеймс, М.: Вильямс, 2016. -292 c.8. Радченко, И. А., Технологии и инфраструктура Big Data: учебное пособие / И. А. Радченко, И. Н. Николаев - Санкт-Петербург: Университет ИТМО, 2018.9. Фрэнкс Б. Укрощение больших данных / Б. Фрэнкс, М. Манн, Иванов, Фербер, 2014. [Электронный ресурс] – Режим доступа: //https://bfveteran.ru/rabota-v-internete/925-poyavlenie..10. Что такое Big data: собрали всё самое важное о больших данных [Электронный ресурс] – Режим доступа: https://rb.ru/howto/chto-takoe-big-data/11.03.2018.11. Чубукова И.А. Data Mining 2-е изд. /исп. – Москва: Интернет Университет Информационных Технологий, 2008. – 383с.

Похожие работы

Ответ
Доклад, Информатика

Смотреть

Написать доклад
Доклад, Информатика

Смотреть

«автоматизация оброботка заявок в ооо "никс-компьютерный супермаркет"»
Доклад, Информатика

Смотреть

работа на 20 минут)
Доклад, Информатика

Смотреть

Написать доклад и сделать презентацию
Доклад, Информатика

Смотреть

Нет нужной работы в каталоге?

Сделайте индивидуальный заказ на нашем сервисе. Там эксперты помогают с учебой без посредников Разместите задание – сайт бесплатно отправит его исполнителя, и они предложат цены.

Вы работаете с экспертами напрямую. Поэтому стоимость работ приятно вас удивит

Исполнитель внесет нужные правки в работу по вашему требованию без доплат. Корректировки в максимально короткие сроки

Если работа вас не устроит – мы вернем 100% суммы заказа

Наши менеджеры всегда на связи и оперативно решат любую проблему

К работе допускаются только проверенные специалисты с высшим образованием. Проверяем диплом на оценки «хорошо» и «отлично»

1 000 +

Новых работ ежедневно

Требуются доработки?
Они включены в стоимость работы

Работы выполняют эксперты в своём деле. Они ценят свою репутацию, поэтому результат выполненной работы гарантирован

Математика

История

Экономика

141349
рейтинг

3060
работ сдано

1328
отзывов

Математика

Физика

История

139148
рейтинг

5846
работ сдано

2646
отзывов

Химия

Экономика

Биология

93878
рейтинг

2016
работ сдано

1265
отзывов

Высшая математика

Информатика

Геодезия

62710
рейтинг

1046
работ сдано

598
отзывов

Тип работы

РУДН

Спасибо большое. И не высокая цена. Задание сделали быстро. Ещё раз спасибо

РИБиУ

Работа была очень срочная, исполнитель справился на 5+ , просто сказать выручил в трудную ...

УрГЭУ СИНХ

Работа выполнена качественно и в срок. Исполнителя рекомендую. Планирую обращаться вновь.

Последние размещённые задания

Ежедневно эксперты готовы работать над 1000 заданиями. Контролируйте процесс написания работы в режиме онлайн

Сезонные явления

Доклад, зоология

Срок сдачи к 20 мая

только что

Математическое моделирование эпидемических процессов вирусных инфекций

Диплом, Высшая математика, Программирование

Срок сдачи к 20 июня

6 минут назад

Решить тест за 30 минут

Тест дистанционно, Математика

Срок сдачи к 19 мая

6 минут назад

Ресурсы предприятия и значение их эффективного использования

Курсовая, экономика организации

Срок сдачи к 20 мая

7 минут назад

Этап 1. Анализ условий развития рынка

Другое, Стратегический менеджмент

Срок сдачи к 21 мая

9 минут назад

Курсовая по предмету «Бухгалтерский учет»

Курсовая, Бухгалтерский учет

Срок сдачи к 25 мая

9 минут назад

интервью

Другое, Информатика

Срок сдачи к 21 мая

10 минут назад

Решить 3 работы по темам: интегралы, функции многих переменных (фмп), дифференциальные уравнения (оду).

Решение задач, Высшая математика

Срок сдачи к 22 мая

10 минут назад

Написать вторую главу диплома

Диплом, Бухгалтерский учет

Срок сдачи к 21 мая

11 минут назад

Тема: "Государственная регистрация прав на недвижимое имущество и...

Курсовая, Гражданское право

Срок сдачи к 19 мая

11 минут назад

Разработать графическое приложение на языке C#

Другое, Основы программирования

Срок сдачи к 6 июня

11 минут назад

Решить задачу по гражданскому праву

Решение задач, Гражданское право

Срок сдачи к 22 мая

11 минут назад

Оформить диплом по методичке. Информация для него...

Диплом, Веб-разработка

Срок сдачи к 23 мая

11 минут назад

Создать базу данных, работающую на основе контейнера. На языке с++

Курсовая, «Объектно-ориентированное программирование

Срок сдачи к 22 мая

11 минут назад

Обеспечение прав и законных интересов участников следственных действий в стадии предварительного расследования

Курсовая, уголовно-процессуальное право

Срок сдачи к 24 мая

11 минут назад

Создание игры

Курсовая, Структуры и алгоритмы обработки данных

Срок сдачи к 25 мая

11 минут назад

Работа с программой ,подкаст

Онлайн-помощь, Икт программа аудасти работа со звуком и т.д.

Срок сдачи к 19 мая

11 минут назад

Создание проекта с графическим интерфейсом с использованием библиотеки Qt на языке си++

Лабораторная, Объектно ориентированное программирование

Срок сдачи к 22 мая

11 минут назад

Закажи индивидуальную работу за 1 минуту!

Размещенные на сайт контрольные, курсовые и иные категории работ (далее — Работы) и их содержимое предназначены исключительно для ознакомления, без целей коммерческого использования. Все права в отношении Работ и их содержимого принадлежат их законным правообладателям. Любое их использование возможно лишь с согласия законных правообладателей. Администрация сайта не несет ответственности за возможный вред и/или убытки, возникшие в связи с использованием Работ и их содержимого.