Social WEB

Социальные сети

С формальной точки зрения социальная сеть — ресурс, предназначенный для обеспечения взаимоотношений между людьми либо организациями в Интернете.
Безусловно, появление социальных сетей - это событие, перевернувшее весь мир. Можно ими восхищаться, можно ненавидеть и негодовать, но это ничего не меняет. Это явление существует и с каждым годом все больше влияет на нас и наш мир в целом. Непрерывная цепочка скандалов, сопровождающих существование и развитие социальных сетей только подтверждает этот факт, это и роль Facebook в арабской весне и скандал с Cambridge Analytica и фильмы, начиная от "Социальная сеть", заканчивая "Сферой".
Все это требует анализа этого феномена и разработки инструмента для использования тех замечательных возможностей, которые предоставляют социальные сети.
Но, безусловно, краеугольным камнем для существования явления, которые мы понимаем под термином "социальная сеть", является наша безопасность. Что очень даже хорошо понимают спецслужбы и пытаются использовать возможности социальных сетей для того, чтобы "залезть к нам в постель, причем прямо в сапогах".
Где-то им это удается, где-то нет, но, безусловно, именно их активность является самой большой угрозой для существования социальных сетей.
Так, например, вот какие данные ФСБ России хочет получить о пользователях социальных сетей. Нехило, однако! Аппетиты даже не акульи. Тут впору процитировать О.Бендера:" А ключи от квартиры..."

В этом списке нет одноклассников, которые давным-давно поставляют всевозможную информацию спецслужбам России. Дольше всех пытались сохранить свое лицо "ВКонтакте", но после ухода Павла Дурова, решившего оставить свою совесть чистой, социальная сеть "ВКонтакте", в соответствии с законом о блогерах от 1 августа 2014 года уже передает ФСБ данные и переписку пользователей.
О преимуществах и достоинствах социальных сетей для пользователей говорить не будем, это все и так знают. О том, что интересно спецслужбам, уже говорили, поговорим о том, что интересно бизнесу.

Реклама в социальных сетях.

Практически с момента своего появления социальные сети активно используются для рекламы, и этот рынок постоянно увеличивается. Реклама может использоваться для решения конкретных задач: Условно рекламу в соцсетях можно разделить на две большие группы:
В общем виде социальная сеть формально определяется как «набор социально-релевантных узлов, связанных одним или несколькими отношениями». В качестве узлов могут выступать люди, организации, веб-страницы, публикации, страны, позиции и многое другое. В качестве связей могут изучаться сотрудничество, дружба, отношения обмена или власти, веб-ссылки, цитирование, потоки информации и различных видов ресурсов и т.д. В каждом отдельном случае конкретные определения сети будут вследствие своей эмпиричности в значительной степени различаться. В связи с этим, без отнесения к предмету изучения, очень сложно дать хорошее, точное определение социальной сети.
Итак, чтобы определить сеть, нужно в первую очередь определить, что представляют собой узлы, которые в нее включены. В социологической ветви анализа социальных сетей для обозначения узлов традиционно используется слово «актор», Итак, в рамках сетевого подхода актора можно описать следующим образом:
  1. он социален;
  2. он характеризуется набором атрибутов;
  3. акторы некоторым образом связаны друг с другом.
И, наконец, какие отношения существуют между акторами. Отношения – это «контакты, связи, объединение, принадлежность к группе, встречи – все, что связывает одного агента с другим и поэтому не может быть сведено к свойствам самих агентов»
Стивен Боргатти и соавторы выделяют четыре широкие категории отношений:
  1. сходство (similarities): возникает, когда два или более узла обладают схожими атрибутами (социально-демографические характеристики, установки, членство в определенной группе и т.д.);
  2. социальные отношения: отношения родства, ролевые отношения (друг, коллега, студент и т.п.), аффективные связи (нравится/не нравится), когнитивные связи (знание);
  3. взаимодействие: связи, основанные на поведении (помощь, общение, визиты и т.п.);
  4. потоки: перемещение различного рода ресурсов, информации, влияния и т.д. по сети между узлами.
Существуют также и другие классификации связей, например, Д. Ноук (Knoke D., Kuklinski J.H. Network analysis, 1982. Р. 15-16) приводит следующие типы отношений:
  1. трансакционные отношения: акторы обмениваются контролем над физическими или символическими ресурсами;
  2. коммуникационные отношения: связь между акторами – это каналы, по которым между акторами могут передаваться сообщения;
  3. отношения преодоления границ (boundary penetration): например, советы директоров корпораций с частично пересекающимся составом;
  4. инструментальные отношения: акторы контактируют друг с другом,пытаясь посредством этого получить доступ к определенным ценным ресурсам (например, информация, работа, услуги и т.д.);
  5. сентиментальные отношения: связаны с выражением чувств (привязанность, восхищение, уважение, отвращение, ненависть, гостеприимство и др.);
  6. отношения власти / влияния;
  7. отношения родства / происхождения / наследования.
Отношения могут быть направленными и ненаправленными. В случае направленных связей одной из изучаемых характеристик может быть реципрокность (т.е. взаимность). Отношения могут оцениваться в бинарном виде (присутствуют или отсутствуют), а могут оцениваться некоторым значением на порядковой или интервальной шкале (например, по силе связи: латентные, слабые, сильные).
Механизмы, лежащие в основе функционирования социальных сетей. Стивен Боргатти (Borgatti S., Mehra A., Brass D., Labianca G. Network Analysis in the Social Sciences, 2009. P. 894-895) и соавторы выделяют четыре основных механизма, действующих внутри сетей и являющихся вследствие этого основой аргументации в анализе социальных сетей:
  1. прямая передача (direct transmission): связи внутри сети представляются в виде определенного рода «труб», по которым от одного узла сети к другому перетекают различные «элементы»: информация, социальная поддержка, культурные нормы, болезни (в узком смысле вирусы или фейки) и т.д.;
  2. адаптация (adaptation): акторы делают одинаковые выборы вследствие схожего положения в сети, выражающегося в схожих ограничениях и возможностях, которые предоставляет их позиция;
  3. связывание (binding): сеть или ее часть может (или не может) при определенных условиях функционировать как единый актор – в этом случае результаты ее действия будут зависеть от ее внутренней структуры и способности «связать» воедино ее узлы для достижения некоторых общих целей;
  4. исключение (exclusion): этот механизм заключается в том, что существование некоторых связей может исключать существование других связей
Можно выделить четыре уровня анализа социальных сетей:
  1. эгоцентрические сети: исследование сетей, выстраиваемых вокруг одного актора («эго»), часто собирается информация о большом количестве эгосетей, которые в дальнейшем выступают в качестве единиц анализа;
  2. диады: изучение связей между парами акторов;
  3. триады: рассмотрение петель, состоящих из трех (иногда и более) узлов сети, в частности это важно для изучения степени кластеризации сетей более высокого порядка;
  4. полные сети: сети рассматриваются «с высоты птичьего полета», изучается сложный рисунок структуры связей сети.

Социальные сети отличаются высокой динамичностью и быстро меняются с течением времени. Методы формирования ссылок поддерживают открытие и создание социальных отношений в социальных сетях, как то:
Хотелось отметить, что социальные сети, это гораздо больше, чем facebook или twitter (хотя и это - немало). В частности, это может быть социограмма, как способ представления, межличностных и межгрупповых отношений в виде системы связей (графа) между индивидами или социальными группами. Анализ социограммы начинается с отыскания центральных, наиболее влиятельных членов, затем взаимных пар и группировок.
Другими словами, анализ социальных сетей может быть полезен для исследования широкого спектра задач, связанного с информационными потоками.
Приведем пару примеров. Первый из которых - взаимосвязи научных сфер на основе перекрестного цитирования.


Граф цитируемости

Второй пример - связи между финансовыми огранизациями. Члены Европейского союза (красный), Северная Америка (синий), другие страны (Зеленый).


Как видно, финансовый сектор сильно взаимозависим, что может повлиять на рыночную конкуренцию и системный риск, что делает сеть уязвимой и нестабильной.

Третий пример - взаимосвязи между болезнями людей.


И еще один пример - террористическая сеть связи от нападавших на "близнецов" в Соединенных Штатах 11 сентября 2001 года.


Как видно, отсечение координаторов террористического акта -
Djamal_Beghal, Zacarias_Moussaoui, Essid_Sami_Ben_Khemais, Mohamed_Atta, Mamoun_Darkazanli и Nawaf_Alhazmi
могло бы позволить сорвать террористическую атаку.

Модели анализа социальных сетей

Элементы анализа социальных сетей

Из всего этого мы рассмотрим совсем немного, так, для знакомства.

Сетевые метрики

Показатель Трактовка метрики
Число узлов и число связей Исходное знание того, сколько узлов и связей в анализируемом графе.
Плотность графа. Чем больше связей, тем активнее осуществляется взаимодействие между узлами. Плотность - показатель активности.
Число компонентов связности. Чем больше компонентов, тем меньше связанность сети, тем выше вероятность, что какая то информация не доходит до участников и они видят отдельные фрагменты общего поля.
Клика- группа взаимосвязанных участников, представляющих собой подграф, где каждая вершина связана с другими вершинами Количество клик присутствующих в графе – это мера количества существующих подгрупп в сети. Смысл - уровень кооперации между участниками группы.
Центральность. Это мера заметности актора в сети (неориентированном графе), по ней можно судить кто обладает наибольшим влиянием, а кто просто выполняет связующую функцию.
Центральность по степени. Смысл этой меры основан на допущении, что тот, кто обладает большим количеством связей (отношений) с другими, занимает центральное положение в локальной общности. Центральность по степени – это отношение количества связей определённого узла к общему количеству других узлов. В случае направленной сети существует две отдельных меры: входящая (indegree) и исходящая (outdegree). Входящая указывает число связей, направленных к узлу, а исходящая – число связей, направленных от узла. Если центральность по степени равна единице, это указывает на то, что определённый узел связан со всеми остальными узлами сети, в то время как 0 указывает на то, что узел изолирован. Так как многие интернет-сети являются направленными, есть определённый смысл в том, чтобы использовать входящую и исходящую центральность по степени. Высокая исходящая центральность по степени указывает на то, что это такой тип человека или сайта, который может быстро распространить информацию среди других людей. Высокая входящая центральность по степени указывает, что узел – «знаменитость»; это значит, что за таким типом человека или сайта будет следить много людей. Степень центральности дает более высокий балл для узла с высокой степенью входа / выхода
Центральность по близости. Центральность по близости выражает, насколько близко узел расположен к остальным узлам сети. Это мера эффективности, так как узел, который является наиболее близким к остальным узлам графа, лучше всех подвержен восприятию новой информации (кстати, и вируса тоже). Формально центральность по близости выражается как отношение числа других узлов графа к сумме расстояний между определённым узлом и всеми другими. Если центральность по близости равна единице, это означает, что определённый узел связан со всеми другими узлами. Вероятно, что сайты СМИ, которые имеют блог-платформы, имеют очень высокий показатель. Они содержат ссылки на большое количество других сайтов, и многие другие сайты, в свою очередь, ссылаются на них. Центральность по близости (Closeness centrality) является показателем того, насколько быстро распространяется информация в сети от одного участника к остальным, то есть насколько близок рассматриваемый участник ко всем остальным участникам сети. Центральность по близости дает более высокий балл узлу, который имеет короткое расстояние пути до всех остальных узлов
Центральность по посредничеству. Метод оценки центральности по посредничеству для вершины заключается в нахождении доли самых коротких путей, соединяющих все пары вершин, которые проходят через данную вершину. Это сумма вероятностей того, что другие акторы в своих взаимодействиях будут прибегать к посредничеству данного актора. Показатель учитывает лишь кратчайшие пути от вершины к вершине и основан на предположении, что при наличии между двумя вершинами нескольких коротких путей равной длины каждый из них используется с равной вероятностью. Чем выше индивидуальный показатель сетевой центральности по посредничеству, тем выше вероятность того, что данный участник обладает значительным социальным капиталом и системными компетенциями, позволяющими ему контролировать информационные потоки внутри системы совместной сетевой деятельности.
Центральный собственный вектор Центральный собственный вектор (также называемый eigencentrality ) является мерой влияния узла в сети . Относительные оценки присваиваются всем узлам сети на основе концепции, что соединения с высокоуровневыми узлами вносят больший вклад в оценку рассматриваемого узла, чем равные соединения с узлами с низким уровнем скоринга. Высокая оценка собственного вектора означает, что узел подключен ко многим узлам, которые сами имеют высокие баллы.
Групповые показатели центральности носят название индексов централизации. Они являются мерами изменчивости или неравенства индивидуальных показателей в графе. Смысл для одномодального графа участников - насколько неравномерно распределено влияние внутри графа. Групповые индексы равны нулю в том случае, когда все индивидуальные показатели равны, и 1, если в графе доминирует одна вершина. Групповые индексы не зависят от размера графа.
Локальный коэффициент кластеризации. Локальный коэффициент кластера измеряет, как соседи взаимосвязаны друг с другом, что означает, что узел становится менее важным.
Глобальный коэффициент кластеризации Коэффициент кластеризации достигает высокого уровня у тех узлов, которые включены в состав групп. Рыночные структуры и их аналоги часто характеризуются более равномерно распределёнными значениями коэффициента кластеризации, что связано с автономных характером каждого из узлов. Чем выше значение группового (глобального) показателя коэффициента кластеризации, тем выше вероятность того, что между участниками осуществляется взаимодействие.

Рассмотренные метрики позволяют понять и оценить важность и влияние актора на всю сеть или некий ее фрагмент. Не менее интересно исследовать как рекомендации пользователя могут влиять на другого пользователя сети или группы пользователей. Подробнее можно посмотреть здесь.
Взаимодействие между пользователями. Взаимодействие между пользователями в пределах группы.
Взаимодействие между группами пользователей. Рекомендации социальных брокеров.
Социальные сети открывают возможности для поиска информации, сотрудничества и рекомендаций потенциальных сотрудников. Онлайн-сообщества и платформы разработки полагаются на функции социальной сети, чтобы повысить осведомленность и ориентировать внимание членов сообщества на те или иные проблемы.
В таких сетях, как LinkedIn или Facebook, дружба представлена ​​в виде взаимных ссылок на неориентированном графе, в то время, как Twitter и GitHub, основаны на направленном сетевом подходе. Ориентированный сетевой подход позволяет пользователям следить за другими пользователями на основе их интересов, не требуя от них взаимности. В традиционных социальных сетях за некоторыми пользователями могут следовать многие люди, в то время как применительно к онлайн-сетям социального сотрудничества, таким как GitHub, люди в основном следуют за теми, кто работает над интересными проектами. Таким образом, это различие между обычными социальными сетями и сетями социального сотрудничества требует понимание «кто за кем следует».
Так или иначе, но ключевым моментом является прогнозирование ссылок. Понятно, что ссылки между собой используют сходные акторы. Поэтому вначале немного о сходстве акторов между собой.

Метрики, основанные на сходстве

Метрика Определение Описание
Общие соседи (CN) \[\left|\Gamma(u)\bigcap\Gamma(v)\right|\] Количество общих соседей \(u\) и \(v\). (\(\Gamma(u)\)- множество соседей узла \(u\))
Salton Index (SA) \[\frac{|\Gamma(u)\bigcap\Gamma(v)|}{\sqrt{k_u\times k_v}}\] Сходство между \(u\) и \(v\), учитывающее степени узлов \(k_u\) и \(k_v\) (Степень узла \(u\) равна \(k_u=|\Gamma(u)|\)). Иногда называют косинус-сходство.
Jaccard Index (JA) \[\frac{|\Gamma(u)\bigcap\Gamma(v)|}{|\Gamma(u)\bigcup\Gamma(v)|}\] Индекс сходства между \(\Gamma(u)\ne\emptyset\) и \(\Gamma(v)\ne\emptyset\)
Sørensen Index (SO) \[\frac{2|\Gamma(u)\bigcap\Gamma(v)|}{k_u+ k_v}\] Индекс сходства, популярный для анализа экологических данных.
Hub Promoted Index (HP) \[\frac{|\Gamma(u)\bigcap\Gamma(v)|}{\min(k_u, k_v)}\] Ссылки примыкающие к более интересному узлу будут иметь больший вес (в знаменателе минимум).
Hub Depressed Index (HD) \[\frac{|\Gamma(u)\bigcap\Gamma(v)|}{\max(k_u, k_v)}\] Эффект противоположный предыдущему.
Adamic-Adar Index (AA) \[\sum\left\{\left.\frac{1}{\log{k_z}}\right|z\in\Gamma(u)\bigcap\Gamma(v)\right\}\] В отличие от CN, менее связанные соседи имеют больший вес.
Resource Allocation Index (RA) \[\sum\left\{\left.\frac{1}{k_z}\right|z\in\Gamma(u)\bigcap\Gamma(v)\right\}\] Подобно AA, RA подавляет высокий вклад соседей

Теперь, когда мы обсудили прогнозирование связей (ссылок) между участниками сети (акторами), рассмотрим как влияют рекомендации одних пользователей на поведение других.
Рекомендации в социальных сетях могут выполняться в соответствии с различными стратегиями, которые можно разбить на три категории: поведенческие, основанные на сходстве и свойствах сети: Методы, анализирующие первые две категории основаны на инструментарии, рассмотрены в разделе, посвященном построению рекомендующих систем.

Полезная литература. Книги.

  1. Aggarwal C.C. Social Network Data Analytics / C.C.Aggarwal .— New York Dordrecht Heidelberg London: Springer, 2011 .— 518 p.
  2. Carrington P.J. Models and Methods in Social Network Analysis / P.J.Carrington, J.Scott, S.Wasserman .— Cambridge: Cambridge University Press, 2005 .— 345 p.
  3. Danneman N. Social Media Mining with R / N.Danneman, R.Heimann .— Livery Place: Packt Publishing, 2014 .— 122 p.
  4. Dehmer M. Statistical and machine learning approaches for network analisis / M.Dehmer, S.Basak .— Hoboken, New Jersey: John Wiley & Sons, Inc., 2012 .— 332 p.
  5. Ishikawa H. Social Big Data Mining / H.Ishikawa .— Boca Raton: CRC Press, 2015 .— 264 p.
  6. Holzhauer S. Developing a Social Network Analisis and Visualization Module for Repast Models / S.Holzhauer .— Kassel: Kassel University Press, 2010 .— 76 p.
  7. Li B. Web Data Mining. Exploring Hyperlinks, Contents, and Usage Data / B.Li .— London New York Heidelberg Dordrecht: Springer, 2011 .— 643 p.
  8. Pattison P. Algebraic models for social networks / P. Pattison .— Cambridge: Cambridge University Press 1993, 1993 .— 332 p.
  9. Russell M.A. Mining the Social Web / M.A.Russell .— Sebastopol, CA: O’Reilly, 2014 .— 448 p.
  10. Scime A. Web mining: applications and techniques / A.Scime .— London: Idea Group Inc., 2005 .— 443 p.
  11. Schall D. Social Network-Based Recommender Systems / D.Schall .— Cham Heidelberg New York Dordrecht London: Springer, 2015 .— 139 p.
  12. Snijders Tom A. Statistical Models for Social Networks / Tom A.Snijders .— Oxford, Groningen: University of Oxford, 2011 .— 53 p.
  13. Tayebi M.A. Social Network Analysis in Predictive Policing Concepts. Models and Methods / M.A.Tayebi, U.Glässer .— Switzerland: Springer International Publishing, 2016 .— 141 p.
  14. Zafarani R. Social Media Mining. An Introduction / R.Zafarani, M.A.Abbasi, H.Liu .— Cambridge: Cambridge University Press, 2014 .— 382 p.
  15. Барабаси Альберт-Ласло. Наука о сетях.

Полезная литература. Статьи.

  1. A comparative study of social network models: Network evolution models and nodal attribute models / [R.Toivonen, L.Kovanen, M.Kivelä та ін.] // Social Networks .— 2009 .— №31 .— P.240–254.
  2. A model for social networks / [R.Toivonen, Jukka-Pekka Onnela, J.Saramaki, та ін.] // Physica A .— 2006 .— №371 .— P.851–860.
  3. Butts C.T. Social network analysis: A methodological introduction / C.T.Butts // Asian Journal of Social Psychology .— 2008 .— №11 .— P.13–41.
  4. Campbell W.M. Social Network Analysis with Content and Graphs / W.M.Campbell, C.Dagli, C.Weinstein // Lincoln laboratory journal .— 2013 .— №1(20) .— P.62-81.
  5. Cha Y. Social-Network Analysis Using Topic Models / Y.Cha, J.Cho // SIGIR’12 .— Portland Oregon, 2012 .— P.565-574.
  6. Freeman L. Centrality in Social Networks Conceptual Clarification / L.Freeman // Social Networks .— 1978/79 .— №1 .— P.215-239.
  7. International Journal of Social Network Mining
  8. Pattison P. Logit models and logistic regressions for social networks: II. Multivariate relations / P. Pattison, S. Wasserman // British Journal of Mathematical and Statistical Psychology. — 1999. — № 52. — P.169-193.
  9. Handcock M.S. Modeling social networks from sampled data / M.S.Handcock, K.J.Gile // The Annals of Applied Statistics .— 2010 .— №1(4) .— P.5-25.
  10. Hunter D. Computational Statistical Methods for Social Network Models / D. Hunter, P. Krivitsky, M. Schweinberger // Journal of Computational and Graphical Statistics. — 2012. — № 4 (21). — P.856-882.
  11. Tang J. Computational Models for Social Network Analysis: A Brief Survey / J.Tang // WWW 2017 .— Perth, Australia, 2017 .— P.921-925.
  12. Wasserman S. Logit models and logistic regression for social networks: I. An introduction to Markov graphs and p* / S. Wasserman, P. Pattison // Psychometrika. — 1996. — № 3 (61). — P.401-425.
  13. Батура Т.В. Методы анализа компьютерных социальных сетей / Т.В.Батура // Вестник НГУ. Серия: Информационные технологии .— 2012 .— №4.Том 10 .— C.13-28.
  14. Градосельская Г. В. Сетевой анализ постсоветского информационного пространства: перспективы разработки методологии // В кн.: Социологические методы в современной исследовательской практике: Сборник статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского [Электронный ресурс] / Отв. ред.: О. А. Оберемко. М. : Издательский дом НИУ ВШЭ, 2011. С. 287-294.
  15. Мазуренко В.В. Огляд моделей аналізу соціальних мереж / В.В.Мазуренко, С.Штовба // Вісник Вінницького політехнічного інституту .— 2015 .— №2 .— C.62-74.
  16. Нелюбин К.А. Анализ социальных сетей как один из основных алгоритмов раскрытия убийств / К.А.Нелюбин // Актуальные проблемы российского права .— 2015 .— №8 (57) .— C.173-180.
  17. Шуба И.В. Использование методов Data Mining при анализе социальных явлений / И.В.Шуба // Обробка інформації в складних організаційних системах .— 2014 .— №6 (122) .— C.107-111.

Вопрос-ответ.

Задать вопрос: