Main Content

6B06103 Аналитика больших данных

Описание программы

Постоянное ускорение роста объема данных является неотъемлемым элементом современных реалий. Социальные сети, мобильные устройства, данные с измерительных устройств, бизнес-информация – это лишь несколько видов источников, способных генерировать гигантские массивы данных. В настоящее время термин Big Data (Большие данные) стал довольно распространенным. Далеко не все еще осознают то, насколько быстро и глубоко технологии обработки больших массивов данных меняют самые различные аспекты жизни общества. Перемены происходят в различных сферах, порождая новые проблемы и вызовы, в том числе и в сфере информационной безопасности, где на первом плане должны находиться такие важнейшие ее аспекты, как конфиденциальность, целостность, доступность и т. д.

На рынке труда востребованы специалисты, способные работать в области анализа многомерных данных сложной структуры. Организациями накоплены огромные массивы данных, многие из которых плохо структурированы. Их обработка и анализ становятся все актуальней по мере того, как ускоряются бизнес-процессы, ожесточается конкуренция и возрастает цена своевременно и правильно принятого решения. В последние годы также становятся все более доступны для анализа личные и персональные данные, размещенные в сети Интернет, особенно в виде «социальных сетей».

Классическая схема подготовки аналитиков не соответствует этим вызовам, поскольку системно не охватывает дополнительные задачи обработки и анализа данных, включая неструктурированные данные больших объемов. При этом очевиден дефицит специалистов, готовых системно подходить к решению задач, связанных именно с методологией обработки данных разных видов и типов, упорядочением доступа к хранилищам данных, перестройкой структуры хранилищ, эффективностью процессов обработки, анализом больших данных (требующих снижения размерности, спец. схем проведения статистических экспериментов, приближенных методов, эффективных алгоритмов) и т.п. Дефицит обостряется с развитием смежных технологий: 3D-печати, дополненной реальности, облачных вычислений, «умной» среды и т.д.

В качестве примеров можно привести компетенции, указываемые в вакансиях на ведущих online-площадках: работа с большими объемами данных, анализ данных, BI, Big Data, Distributed Cache, Data-Warehouse, ETL, Business Intelligence, Hadoop, MapReduce, опыт анализа социальных сетей, опыт работы с Big Data, и т.д.

Образовательная программа «Big Data Analytics» включает в себя работу с данными в структурированном и не структурированном видах из информационных систем, обработку больших данных, технологии Big Data, работу с Excel, SQL и внутренними системами аналитики. Проектирование внутренних хранилищ данных, с связыванием данных из различных систем, а также созданием дэшбордов и аналитических отчетов. Использование BI-системы (Oracle, IBM, SAS и другие), SQL, инструменты ETL и языки программирования. Интеллектуальный анализ структурированных и неструктурированных данных. Использование статистики, машинное обучение и продвинутые методы предиктивной аналитики для решения ключевых бизнес-задач.

Образовательная программа предусматривает подготовку в области современных методов извлечения знаний из данных, математических методов моделирования и прогнозирования, современных программных систем и методов программирования для анализа данных.

Цель и задачи программы

Цель ОП - подготовить универсального специалиста, который обладает знаниями в математике, статистике, ИКТ, компьютерных науках, бизнесе и экономике.

Задачи ОП:

  1. Подготовить универсального специалиста, который обладает знаниями в математике, статистике, ИКТ, компьютерных науках, бизнесе и экономике.
  2. Обучить студентов методам исследования больших массивов данных, содержащих разрозненную информацию, например, рыночные тенденции, предпочтения клиентов и пр.
  3. Выработать умение извлекать нужную информацию из всевозможных источников, включая информационные потоки в режиме реального времени, анализировать ее для дальнейшего принятия бизнес-решений и видеть логические связи в системе собранной информации и на основании этого разрабатывать те или иные бизнес-решения, модели.
  4. Студент должен знать методологию исследования в области науки о данных (постановка целей исследования, сбор данных, обработка и преобразования данных, обследование данных, построение моделей и отбор методов, представление и визуализация результатов), методы и подходы к стандартизации и преобразованию данных, методы машинного обучения (базовые методы классификации и кластеризации), способы организации хранения данных.
  5. Студент должен уметь  решать прикладные задачи по обработке и анализу данных на предмет выявления в них скрытых зависимостей, применять элементы теории вероятностей и математической статистики, лежащие в основе моделей и методов науки о данных, правильно подбирать методы машинного обучения для решения практических задач, организовывать рабочее окружение исследователя в области науки о данных (Jupyter),использовать пакеты и библиотеки для машинного обучения (Matplotlib, SciPy/NumPy, Pandas, Scikit-learn).
  6. Студент должен владеть навыками работы с инструментарием для организации хранения данных, навыками программной реализации на языках R и Python средств обработки и анализа данных, навыками предобработки и визуализации данных;
  7. Студент должен владеть навыками комплексного анализа и аналитического обобщения результатов научно-исследовательских работ с использованием современных достижений науки и техники, навыки самостоятельного сбора данных, изучения, анализа и обобщения научно-технической информации по тематике исследования, умение создавать теоретические модели, позволяющие прогнозировать свойства исследуемых объектов, и разрабатывать предложения по внедрению результатов.