Методы Data Science

Πάντα ῥεῖ καὶ οὐδὲν μένει – все течет, все изменяется, эта фраза Гераклита наилучшим образом описывает существующий мир.

В XXI-м веке наш мир претерпевает большие изменения, при этом наиболее радикальные и крупномасштабные перемены происходят в информационной сфере общества.
Еще в 20-х годах прошлого столетия академик В.И.Вернадский отметил мощное воздействие человека на окружающую среду и преобразование современной биосферы. Одним из сделанных им выводов был тот постулат, что человечество как элемент биосферы, неизбежно охватит разумным управлением живую оболочку планеты, превратив ее в единую сферу — ноосферу (сферу разума). Те преобразования, которые мы сейчас наблюдаем в информационной сфере, подтверждают выводы В.И.Вернадского. Перемены в информационной сфере общества (а прежде всего, в информационных технологиях ) представляют собой не просто очередной этап развития научно-технологической революции, а имеют глобальный цивилизационный характер. Прогнозируется, что уже к середине XXI-го века на нашей планете будет сформирован принципиально новый вид цивилизации — информационная цивилизация. В условиях становления этой цивилизации существенно возрастает роль информации и научных знаний практически во всех сферах жизнедеятельности общества.

Так что же такое информация?
В узком смысле под информацией понимается любая совокупность сигналов, воздействий или сведений, которые некоторой системой воспринимаются от окружающей среды (входная информация X), выдаются в окружающую среду (выходная информация Y), а также хранятся в себе (внутренняя, внутрисистемная информация Z).
В широком смысле информацию следует считать особым видом ресурса, как запаса неких знаний материальных предметов или энергетических, структурных или каких-либо других характеристик предмета. В отличие от ресурсов, связанных с материальными предметами, информационные ресурсы являются неистощимыми и предполагают существенно иные методы воспроизведения и обновления, чем материальные ресурсы.
Высшей формой информации являются знания. Это наддисциплинарное понятие, которое претендует на роль важнейшей философской категории. В философском плане познание следует рассматривать как один из функциональных аспектов управления.
Одним из инструментов работы с информацией является Data Mining. Термин Data Mining был введен введён Григорием Пиатецким-Шапиро в 1989 году и используется для обозначения множества методов выделения информационных характеристик из большого количества плохо структурированных исходных данных. Еще более обширным явлением является Data Science, по сути, наука о данных. Методы Data Science достаточно легко фрагментируются и включают в себя методы Web Mining, Text Mining и пр.
Основу методов Data Science составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики.
Часто путают Data Mining и Data Science. К методам Data Science, кроме всего прочего, относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Заметим, что такие методы предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний) но полностью лежит в сфере интересов Data Science.
Одно из важнейших назначений методов Data Science состоит в наглядном представлении результатов вычислений (визуализация), что позволяет использовать инструментарий Data Science людьми, не имеющими специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой. Методы Data Science могут быть применены как для работы с большими данными, так и для обработки сравнительно малых объемов данных (полученных, например, по результатам отдельных экспериментов, либо при анализе данных о деятельности компании). В качестве критерия достаточного количества данных рассматривается как область исследования, так и применяемый алгоритм анализа.
Задачи, решаемые методами Data Science, принято разделять на описательные и предсказательные. В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.


Данный обзор не претендует на полноту изложения методов Data Science, в нем представлена

Написание предложенного обзора идет параллельно с разработкой он-лайн инструментов, которые могут быть полезны исследователям, в том числе и для анализа данных - Science Hunter.
В основе изложенных материалов лежит книга Шумейко А.А., Сотник С.Л. Интеллектуальный анализ данных (Введение в Data Mining).-Днепропетровск:Белая Е.А., 2012.- 212 с.

К особенностям представленных материалов следует отнести описание реальных проектов, связанных с интеллектуальной обработкой данных.

Замечания-предложения.

Написать: