Amanda L. Traud 1,2, Peter J. Mucha 1,3, and Mason A. Porter 4,5
1 Carolina Center for Interdisciplinary Applied Mathematics, Department of Mathematics, University of North Carolina, Chapel Hill, NC 27599-3250, USA
2 Carolina Population Center, University of North Carolina, Chapel Hill, NC 27516-2524, USA
3 Institute for Advanced Materials, Nanoscience & Technology, University of North Carolina, Chapel Hill, NC 27599-3216, USA
4 Oxford Centre for Industrial and Applied Mathematics, Mathematical Institute, University of Oxford, OX1 3LB, UK
5 CABDyN Complexity Centre, University of Oxford, OX1 1HB, UK.
Die übergeordnete Fragestellung der Studie ist, welche Eigenschaften Netzwerkstrukturen in Facebook aufweisen. Das bedeutet es wurde untersucht welche Variblen, Angaben,die in FB gängig sind, Freundschaftsanfragen begünstigen bzw. durch welche Variablen Gruppen wie stark situiert sind. Diese Gruppe mit Gemeinsamkeiten werden Communities genannt.
Die Daten stammen direkt anonymisiert von Facebook.
Die Daten sind ein „single Snapshot“, also eine Momentaufnahme von September 2005.
Da Facebook an einen Institutionen- Accont zb. Einer Universität gebunden war, wurden alle 100 Institutionen separat analyisert bzw. die Plattform an sich ist nur einer sehr begränzten soziale Gruppe zugänglich. Die Personenanzahl innerhalb einer Institution, hier auch Netzwerk genannt, variierte zwischen 762 und 32.361. Die Untersuchungsvariablen waren zum einen die Unterteilung in die Netzwerke „Full“, „Students“, „Female“und „Male“, sowie die Variablen, an Hand deren die Struktur untersucht wurde, „gender“, „major“, „class year“, „high school“ und „residence“. Es wurde angegeben, dass es fehlende Werte gab, weile Personen auf Facebook nicht alles angeben müssen. Wie viele fehlende Werte es gab, ist nicht bekannt, da der Datensatz unter der angebenen Internetadresse nicht mehr aufrufbar ist.
1. Assortativity
Mittels dieser Methode wird ein Indikator dafür ausgegeben, ob sich in einem Netzwerk Knotenpunkte vorwiegend mit anderen Knotenpunkten mit gleichen oder ungleichen Attributen verknüpft haben.
Die Werte dieses Indikators liegen dabei zwischen -1 und 1, wobei -1 eine Verknüpfung nur zwischen Knotenpunkten mit unterschiedlichen Attributen darstellen würde und dementsprechend 1 eine Verknüpfung nur zwischen Knotenpunkten mit gleichen Attributen.
In dem vorliegenden Fall ist von Interesse ob die Nutzer/innen hauptsächlich mit anderen Nutzer/innen aus z.B. dem gleichen „class year“ befreundet sind, oder nicht. Zusätzlich soll diejenige Variable herausgearbeitet werden, die den höchsten Assotativity-Wert ausgibt.
2. Logistische Regression (a) und Exponential Random Graph Model [ERGM] (b)
Diese beiden Methoden werden angewandt, um herauszufinden, wie groß der Einfluss der Variablen auf die mögliche Bildung einer Freundschaftsbeziehung ist.
Aufgrund des zu hohen Rechenaufwandes konnten hier jedoch nur die Nutzer/innen der 16 kleinsten Institutionen betrachtet werden, wodurch die Aussagekraft der Ergebnisse eingeschränkt ist.
Beide Methoden wurden jeweils für die Variablen „class year“, „high school“, „residence“ und „major“ angewandt. Beim ERGM kam zusätzlich noch die Variable „Triangle“ hinzu, die im Folgenden noch erläutert wird.
a. Eine logistische Regression ist hier nötig, da mit diskreten Werten gearbeitet wird, von der funktionsweise gleicht sie jedoch der linearen Regression. Das heißt, mittels ihr ist es möglich, die Stärke des Zusammenhangs zwischen den verschiedenen angegebenen Attributen der Nutzer/innen und einer Freundschaftsbeziehung zwischen diesen zu errechnen.
b. Bei der ERGM-Methode werden Knotenpunkte und Verknüpfungen eines beobachteten Netzwerks übernommen, zufällig verteilt und mit den beobachteten Ausprägungen des Netzwerks verglichen. Aus der dabei festgestellten Abweichung kann dann die Stärke des Zusammenhangs berechnet werden.
ERGMs können komplexere Gebilde darstellen und wurden in dieser Studie genutzt, um die Variable „triangle“ mit aufzunehmen. Damit wurde die Transitivität von Freundschaftsbeziehungen erfasst. D.H. es wurde berechnet, wie groß die Wahrscheinlichkeit ist, dass Nutzer/in a eine Freundschaft mit Nutzer/in c schließt, wenn beide mit Nutzer/in b befreundet sind.
3. Community Detection
Ein weiteres Ziel der Studie ist es, Gemeinschaften in den vorliegenden Netzwerken auszumachen. Solch eine Gemeinschaft zeichnet sich dadurch aus, dass innerhalb dieser signifikant mehr Verbindungen zwischen den Knotenpunkten bestehen, als zu denen außerhalb.
Hier wurde mit der „modularity optimation“ (Algorithmen, die solche Häufungen von Freundschaftsbeziehungen berechnen können) gearbeitet, allerdings mit 6 verschiedenen Kombinationen der Schritte, damit nicht der Algorithmus das Ergebnis bestimmt. Bei dieser Art von Teilung wird jeder Knotenpunkt nur einer Gemeinschaft zugeordnet.
Dies ist allerdings nur ein „Vorschritt“ für die nächste angewandte Methode:
4. Comparing Communities to Node Data
In diesem Schritt werden die identifizierten Gemeinschaften mit den Attributen der Nutzer/innen zusammengebracht. Im vorherigen Schritt wurden nur diejenigen Gruppen innerhalb des Netzwerks identifiziert, in denen besonders viele Freundschaftsbeziehungen bestehen – in diesem Schritt werden dann die häufigsten gemeinsamen Attribute solcher Gemeinschaften errechnet. Dadurch kann festgestellt werden, durch welche Variablen solche Gemeinschaften bevorzugt organisiert werden.
Zu 1.
Durch die Messung der Assortativity konnte festgestellt werden, dass die Variable „Class Year“ insgesamt die für die meisten Freundschaftsbeziehungen zwischen Nutzer/innen mit gleichen Eigenschaften verantwortlich ist. Nur in 6 Fällen weist die Variable „Residence“ höhere Assortativity-Werte auf. Zusätzlich ist in einigen Fällen ein Unterschied zwischen den vier verschiedenen betrachteten Netzwerken zu beobachten, wobei auch hier meist „Class Year“ den höchsten Wert aufweist und nur in einigen Fällen „Residence“.
Zu 2.
In einer Zweierbeziehung erhöht vor allem die Variable der gemeinsam besuchten High-School die Neigung dazu, eine Freundschaftsbeziehung einzugehen. Dabei liefern die Regression und das ERGM ziemlich ähnliche Ergebnisse. Hierbei muss jedoch, wie schon erwähnt, beachtet werden, dass nur die 16 kleinsten Institutionen untersucht wurden, also die Ergebnisse auch nur für diese eine Aussagekraft besitzen.
Zu 3. und 4.
Da das Zusammenbringen der berechneten Gemeinschaften und der Nutzer/innen-Daten für jede der vier Variablen einzeln geschehen ist, müssen die daraus resultierenden Werte in einem ersten Schritt mittels ihrer Summe normiert werden, um diese in einem Koordinatensystem miteinander in Bezug zu bringen. Das Koordinatensystem ist in diesem Fall 3-Dimensional und gleicht einer Dreieckspyramide, wobei in der Darstellung von oben auf diese geblickt wird („Class Year“ bildet die Spitze der Pyramide).
Jeder Punkt in dem Koordinatensystem steht dabei für eine der Institutionen und deren Position im Koordinatensystem zeigt, wie sehr deren Gemeinschaften durch die jeweiligen Variablen organisiert werden. Da dies bei „Class Year„ nicht möglich ist, wird dies hier über die Farbe symbolisiert. Diese zeigt an, wie weit ein Punkt vom „Class Year“ (der Spitze der Pyramide) aus nach unten abweicht; Gelb steht für eine Abweichung von 0,1 und Rot für eine von 0,3 – hier sind alle Punkte nah an der Variablen „Class year“ gelegen (in 88 Fällen ist die Abweichung < 0,2). Die Kreisgröße stellt die Unterschiedlichkeit der Ergebnisse aus den 6 Methoden der Gemeinschafts-Erkennung dar (größere Kreise = größere Unterschiede).
Ergebnis ist hier, dass in fast allen Fällen das „Class Year“ die Gemeinschaften organisieren. In manchen der Institutionen ist auch „Residence“ ein wichtiger Faktor für diese Gemeinschaften, dies kann auf die strukturellen Umstände der jeweiligen Institutionen zurückgeführt werden, die vermehrt Studierendenwohnheime oder ähnliches bereitstellen.
Auffällig sind hier besonders die Unterschiede zwischen männlichen und den weiblichen Gemeinschaften: im ersteren fällt der Faktor „Class Year“ geringer aus, die anderen Faktoren, insbesondere auch „major“, haben dagegen einen stärkeren Einfluss.
Im Verhältnis zu den sehr Umfangreichen Ergebnissen, die auch auf Grund statistischen Zusammenhänge formuliert wurden, fällt die Interpretation dazu nur sehr gering aus.
(Reflexion: Zu Ergebnisse, die man auf Grund von statitischen Zusammenhängen formuliert, ist auch eine Interpretation bzw. eine Formulierung von Hypothesen, die diesen Zusammenhang erkläret, notwendig. Ansonsten bleibt der Zusammenhang letztlich leer als statistischer Zusammenhang, der auch durch dritt-Variablen bedingt sein kann oder durch Zufall entstanden sein.
Die Ergebnisse scheinen intuitiv bzw. obsolet. Spricht das für gute Intuition oder langweilige bzw. ungenaue und sinnlose Forschung?
Andererseits wurde hingewiesen, dass an verschieden Stellen sich Fragen ergeben haben, die weiterer Forschung bedürfen.
Dies ist ein allgemin gutes Vorgehen, aus Forschung Grundlage neuer Forschung zu entwickeln. Zum Bespiel um die Unteschiede zwischen dem Netzwerk „Femal“ und „Male“ zu genau zu untersuchen. Dieses Vorgehen entspricht dem Prinzip: „Eine Gegenstand der keine Fragen aufwirft ist ein „toter“ Gegenstand“ und mit toten Gegenständen hat die Soziologie in doppelter hinsicht nichts zu tun. Man sollte deshalb immer neue Fragen formulieren können.
Es wurde außerdem auf die unterschiedliche Struktur der Makro bzw. der Mikroebene hingewießen. Auf der Mikroebene ist die gemeinsam „Highschool“ Struktur gebend, auf der Makroeben das gemeinsam “ Class year„.
Sinnhaftigkeit/Erkenntnisgewinn der Studie
- Die Ergebnisse der Studie sind nicht sehr beeindruckend bzw. sie sind größtenteils intuitiv. Es stellt sich deshalb die Frage, inwiefern nützlich die Studie bzw. ob sie zu oberflächlich und deswegen intuitiv ist. Andereseits müssen intuitive Ergebnisse nicht per se sinnlos oder schlecht sein. Auch vermeintlich offensichtliches muss und kann untersucht und dargestellt werden.
- Insbesondere Machtfragen und des sozialen Mainstreamings wären bsp. interessanter, als eine bloße Darstellung.
- Qualität der Freundschaftsbeziehungen wird nicht berücksichtigt und können auch gar nicht in adäquater Weise berücksichtigt werden. Daher werden Gemeinschaften berechnet und modelliert, die in der Realität so nicht vorhanden sind. Gemeinschaften werden dadurch auf eigene Art und Weise definiert.
- Das Verhalten „Online“ und „Offline“ wird mehr oder weniger gleich gesetzt. Dabei müsste genau dies in Frage gestellt und ausdifferenziert werden, in wie weit sich „Online-“ und „Offlineverahalten“ unterscheidet, gleicht oder beeinflusst.
- Da diese Studie eine Querschnittstudie ist, stellt sie nur eine Momentaufnahme dar. Es wäre von Interesse Daten über einen längeren Zeitraum zu erhlaten. Die bereits verwendeten Analyseverfahren können als Blaupause diene, wodurch sich der Aufwand für weitere Datenauswertungen geringer verringert.
- Die Innere Logiken von sozialen Netzwerken müssen immer mitbeachtet werden. Beispielsweise muss sich über den Zweck der Plattform für die Nutzer*Innen und deren Umgang damit im klaren sein bzw. über das spezische kommunikative Zeichensystem (Bsp: Likes,Emoticons,Shares, usw…) im klaren sein. Dadurch stehen die Daten in jeweils eigenem Kontext und können nicht ohne weiteres mit Daten aus anderen Bereichen verglichen werden.
- Kulturelle Unterschiede in der Nutzung von sozialen Netzwerken müssen mitbeachtet werden bzw. Ergebnisse dürfen nicht vorschnell verallgemeinert werden, sondern auf den Forschungsgegenstand beschränkt sein. Man sollte nicht vehement vesuchen Repäsentativität zu erlangen bzw. vorzutäuschen, welche kaum wirklich errichbar ist.
Eine gute deskriptive Studie ist nicht minder sinn-und wertvoll.
Graphische Darstellung der Ergebnisse
In dieser Graphik wird die Gemeinschaftsstruktur des Reed-College „Students“-Netzwerks aufgrund der „Class Years“ dargestellt. Unterschiedliche Farben zeigen dabei die unterschiedlichen Ausprägungen zum „Class Year“ der Personen, näher beeinander liegende Punkte stellen die Nähe der Verbindung zwischen diesen Personen dar.
- Eine solche graphische Darstellung vermag niemals die Komplexität einer solchen Studie bzw. des Sachverhalts wiederzugeben und bedeutet damit immer eine Verzerrung bzw. Verkürzung der Ergebnisse. Auf diesen Sachverhalt muss in der Beschreibung solcher Graphiken geachtet werden und dementsprechend darauf eingegangen werden. Allerdings ist der Zweck von Graphiken komplizierte Sachverhalte möglichst schnell und einfach verständlich zu machen. Ein andere Problematik besteht darin, dass Sachverhalte durch die Darstellung auch diffus abgebildet oder verzerrt werden können, da es gewisse ungenaue Grenzen des graphisch darstellbaren gibt. Im Extremfall wird die Darstellung zum Selbstzweck und nicht mehr Mittel zur Informationsvermittlung, was zu vermeiden gilt.
Anonymisierung von Daten (aus sozialen Netzwerken)
- Die Personen, die ihre Daten in sozialen Netzwerken einstellen, können meist nicht abschätzen, was mit diesen Daten und Metadaten alles möglich ist. Dabei sind insbesondere folgende Punkte wichtig:
Es stellt sich die Frage, ob man die Daten von Sozialen Medien überhaupt verwenden darf, da die Nutzer*Innen nicht expilzit der Verwendung ihrer Daten zugestimmt haben. Außerdem ist nicht klar, ob die Daten ausreichend anonymisiert sind, da man mit evt. mit den verschiedenen Daten auf eine spezielle Person schließen könnte. Die große Anzahl an Nutzer*Innen trägt zwar an sich schon zur Anonymisierung bei, kann aber keine Anonymität garantieren.
Hierbei sei auf den Kriterienkatalog und der Zugang zu Daten unter Punkt 4)a verwiesen .
- Kritik der Ergebnisse ist häufig auf eine Überheblichkeit in der Forschungsgrundlage sowie Forschungsmethode zurückzuführen.
- Hier: Offline- und Onlineverhalten wird in gewissem Maße in Bezug zueinander gesetzt, ohne auf die qualitativen Eigenschaften der formalen Freunfschaftsbeziehungen in Facebook einzugehen.
- Insbesondere der Versuch mit Studien immer eine Repräsentativität darstellen zu wollen, führt zu unzulässigen Aussagen. Vielmehr sollte eine korrekte despriktive Analyse der Daten im Mittelpunkt stehen.
Erkenntnisse aus dieser Studie
- Komplexe graphische Darstellung müssen erläuter werden und , wenn möglich, auf die zentralen Aussagen vereinfacht werden, ohne jedoch eine Verzerrung der Ergebnisse zu erzeugen.
- Für eine differenziertere Darstellung ist es wichtig, verschiedene Ansatzpunkte zu wählen (z.B. Mikro- und Makroperspektive), um weitere Erkenntnisse erhalten zu können.
- Wichtige theoretische Annahmen müssen ausführlicher dargestellt werden und diskutiert werden (Hier: Online- entspricht ca. Offlineverhalten).
Ansatzpunkte für weitere Studien mit ähnlichen Methoden:
- Langzeitstudie mit gleichen Variablen und gleichen Institutionen, um eine Veränderung der Strukturen feststellen zu können.
- Anpassung an die veränderte Struktur von Facebook, d.h. Nutzung anderer Variablen, andere Fragestellungen, Betrachtung von Facebook als einzelnes Netzwerk.
Traud; Mucha; Porter (2011): Social Structure of Facebook Networks. In: Physica A: Statistical Mechanics and its Applications, Vol. 391, Issue 16, S. 4165-4180. Onlinequelle: http://arxiv.org/abs/1102.2166 (Stand: 23.07.2016).