مدلهای گرافی تصادفی نمایی
مدلهای گراف تصادفی نمایی (به انگلیسی: Exponential Random Graph Models) یا مدلهای *p یکی از مدلهای خانواده نمایی هستند که برای تحلیل دادههای شبکهها به خصوص شبکههای اجتماعی به کار میروند.[۱] استفاده از مدل ERG زمانی مؤثر است که بخواهیم بدون ورود به جزئیات فرایند شکلگیری شبکه، مدل شبکهای درست کنیم که تا حد ممکن با ویژگیهای شبکه مشاهده شده مطابقت داشته باشد. این مدلهای گراف برای مطالعه ویژگیهای ساختاری شبکهها و مدلهای فرایندهایی که روی شبکهها اتفاق میافتند، مانند گسترش بیماری واگیر، انتشار اطلاعات، شکلگیری نظرات در شبکههای اجتماعی و … کاربرد دارند.[۲]
پیشینه تاریخی[ویرایش]
اولین گروه مدل از شبکهها توسط Solomonof و Rapoport در سال ۱۹۵۱ معرفی شد.[۳] در این مدل مجموعه تمام گرافهای ساده غیر جهتدار با تعداد ثابت N گره در نظر گرفته شده که هر جفت گره با احتمال p با یک یال به یکدیگر وصل شدهاند.[۴][۵] تا کنون این مدل را به نام مدل Bernoulli یا مدل Erdös-Rènyi شناخته شدهاست و در حقیقت اولین مثال از مدل ERG است.
مدل گراف تصادفی نمایی، اوایل دههٔ ۱۹۸۰ توسط Holland و Leinhard مطرح شد.[۶] توسعههای بعدی توسط نویسندگان دیگر در دههٔ ۱۹۹۰ ادامه پیدا کرد.[۷] در سالهای اخیر، تعدادی از فیزیکدانان مطالعههای تئوری از جمله[۸][۹][۱۰][۱۱][۱۲][۱۳] در این زمینه انجام دادهاند.
امروزه، مدلهای ERG بیشتر در تحلیل شبکههای اجتماعی (SNA) استفاده میشوند.[۷][۱۴] علاوه بر این جعبه ابزار روشها/مدلهای شبکه اجتماعی معمولاً به مدل ERG مجهز هستند. به احتمال زیاد این موضوع به دلیل این است که ERGها به عنوان یک ابزار عملی برای مدل کردن هر شبکه پیچیده در نظر گرفته شدهاند. مخصوصاً اینکه، چند ابزار کامپیوتری استاندارد، مانند بسته ERGM، برای شبیهسازی آنها در نظر گرفته شدهاست.[۱۵]
مقدمه[ویرایش]
برای توصیف ویژگیهای ساختاری یک شبکه مشاهده شده معیارهای بسیاری مانند تراکم، مرکزیت یا جذب وجود دارند. اما این معیارها تنها شبکه مشاهده شده را که فقط یک نمونه از تعداد زیادی شبکه جایگزین ممکن است، توصیف میکند. مجموعه شبکههای جایگزین، ممکن است ویژگیهای ساختاری مشابه یا متفاوتی داشته باشند. یک مدل آماری در فرآیندهای موثر بر شکلگیری ساختار شبکه، باید مجموعه تمام شبکههای جایگزین ممکن را با توجه به شباهت آنها به شبکه مشاهده شده در نظر بگیرد[۱].
مدلهای ERG بیان کننده فرآیندهایی هستند که ویژگیهای تعیین شده از گراف مشاهده شده را استخراج میکنند. این ویژگیها معیارهای شبکه را مشخص میکنند. ویژگیها در ERGM تا حدودی متفاوت از مدلهای آماری سنتی است. در مدل سنتی، داده شامل مجموعهای از مشاهدات است که هر کدام روی تعدادی متغیر مجزا اندازهگیری شده است. یک یا تعداد بیشتری از این متغیرها، متغیر پاسخ (وابسته) و بقیهٔ متغیرها به عنوان پیشبینی کننده (مستقل) در نظر گرفته میشوند. با وجود اینکه این متغیرها ممکن است همبستگی داشته باشند اما به صورت مجزا اندازهگیری میشوند. در یک شبکه، مشاهدات علاوه بر متغیرهای پاسخ، ویژگیهای گره را به عنوان متغیر مستقل دربر دارند. اما در ERGM متغیرهای پیشبینی کننده عملکرد مستقیم متغیرهای پاسخ هستند، در نتیجه برای گراف مشاهده شده، تنها متغیر پیشبینی کننده داریم که پیکربندیهایی از گرهها مثل مثلث، دوستاره و سهستاره هستند.[۱۶]
چرایی نیاز به مدل ERG[ویرایش]
تخمین شبکه جایگزین به دو دلیل چالش برانگیز است. اول؛ روابط به طور کلی مستقل نیستند، دوم؛ معمولا فقط یک شبکه مشاهده شده داریم. برای حل این چالشها از مدل ERG استفاده میکنیم که با در نظر گرفتن وابستگی متقابل بین مولفهها این چالشها را برطرف میکند. به طور مثال در شبکههای اجتماعی، افراد گرههای شبکه هستند و ارتباط بین دو گره مستقل از وجود یا عدم وجود ارتباط بین دیگر گرهها نیست. مثلا احتمال ارتباط بین دو نفر در شرایطی که دوست مشترک داشته باشند بیشتر میشود (وابستگی مارکف). پس برای تخمین یک شبکه اجتماعی باید این وابستگیها را در نظر گرفت و در نتیجه باید از مدل ERG استفاده کرد[۱۷].
وابستگی مارکف
Frank و Strauss در [۱۸] 1986 وابستگی مارکوف را معرفی کردند. این وابستگی بیان میکند که اگر گره i و j به یکدیگر متصل باشند؛ این اتصال روی هر اتصال دیگری که شامل i و j است تاثیر میگذارد. حتی اگر وضعیت همهی اتصالهای دیگر در شبکه معلوم باشد. در واقع وابستگی مارکف بیان میکند زمانی که دو اتصال بازیگر مشترک دارند، به صورت شرطی وابسته هستند. به عنوان مثال، رابطه بین پیتر و مری ممکن است وابسته به این باشد که آیا مری به جان وابسته است یا خیر (پیتر و جان دشمن همدیگر هستند). در واقع میتوان گفت به دلیل اینکه گره m (مری) بین روابط احتمال Pim و Pmj مشترک است، بین این دو احتمال رابطه شرطی برقرار است[۱۴].
مدل ERG[ویرایش]
برای ساخت مدل گراف تصادفی نمایی از روی یک شبکه واقعی، نیاز به تعیین ویژگیهای قابل اندازهگیری شبکه است که در مدل نشان داده میشوند. این ویژگیها احتمال کلی یک یال در شبکه جهتدار و بدون جهت را در نظر میگیرد. بهطور مثال ویژگیهای زیر میتوانند برای ساخت مدل استفاده شوند:
- تعداد یالها (E)
- دنباله درجه گرهها: ki} = k1, k2, . . . kN}
- متوسط طول کوتاهترین مسیر (l)
- ضریب خوشهبندی (C)تعداد مثلثها یا زیرگرافهای دیگر مثل دوستاره، سه ستاره،..
- تراکم: این معیار همان چگالی شبکه است که برابر است با تعداد یالهای شبکه تقسیم بر (تعداد یالهای گراف کامل)
- تعداد مولفههای متصل در گراف[۱۹]
- گرههای متقابل (mutual): این ویژگی تنها میتواند در گرافهای جهتدار استفاده شود و برابر تعداد یالهایی است که هم (i → j) و هم (j → i) وجود دارد. یا میتوان تنها یالهایی را شمارش کرد که مربوط به گره خاصی هستند.
- گرههای نامتقارن: این ویژگی تنها میتواند در گرافهای جهتدار استفاده شود و برابر تعداد یالهایی است که یا (i → j) یا (j → i) وجود دارد. یا میتوان تنها یالهایی را شمارش کرد که مربوط به گره خاصی هستند.[۱۶]
ویژگیهای مشاهده شده را با xi} = x1, x2, . . . xr} و مقادیر اندازهگیری شده آنها در شبکه واقعی را با x∗i } = x∗1, x∗2, . . . x*r} نشان میدهیم.
پس از تعیین ویژگیها باید مجموعه تمام گرافهای ممکن که شبکه واقعی میتواند داشته باشد را مشخص کرد؛ {g={G. با توجه به کاربردهای مختلف میتوان گرافهای ساده، با حلقه، با یال چندگانه، وزندار یا جهتدار را در نظر گرفت اما برای سادگی گرافهای ساده در نظر گرفته میشود. در شکل [۲] یک گروه آماری از گرافهای ساده به عنوان نمونه آورده شده است:
در مدل گراف تصادفی نمایی، هر گراف G با احتمال (P(G) ∝ eH(G ظاهر میشود؛ (H(G گراف همیلتونی است که تعیینکننده ویژگیهای شبکههای مختلف است. در ERGM توزیع احتمال (P(G به فرم زیر میباشد:
که Z تابع پارتیشن نامیده میشود و میتواند با توجه به شرط نرمال بودن محاسبه شود:
در نتیجه:
اما شبکه همیلتونی را میتوان به صورت زیر نوشت:
که {(xi(G} مقادیر مشاهدات {xi} برای گراف G هستند و θi} = θ1, θ2, . . . θr} پارامترهای مجموعه گرافها هستند و مقدار x*i که در شبکه واقعی اندازهگیری شده است، با متوسط مقدار درون مجموعه گراف مطابقت دارد، یعنی:
برای i = 1, 2, .... , r.[۲]
مثال[ویرایش]
اگر فرض کنیم احتمال یک شبکه به تعداد لینکها، تعداد دو ستارهها، تعداد سه ستارهها و تعداد مثلثهای آن شبکه بستگی داشته باشد، آنگاه:
در نتیجه:
چالشهای اصلی ساخت یک مدل ERG[ویرایش]
دو چالش مهم برای ساخت این مدل مطرح است:
- از چه ویژگیهایی استفاده کنیم؟
- کدام ویژگیها میتوانند در شرایط خاص استفاده شوند و کدام یک نمیتوانند؟
برای حل برخی چالشها میتوان مواردی را در نظر گرفت. بهطور مثال معمولاً در مدلسازی آماری کاربر باید از انتخاب وابستگیهای خطی بین ویژگیها جلوگیری کند، مثلاً از هر دو ویژگی یال و تراکم در یک مدل استفاده نکند. انتخاب ویژگیهای مؤثر برای یک مدل ERG بستگی به مفهوم آن شبکه دارد. به همین دلیل از ویژگیهایی که در یک زمینه مثلاً شبکههای اجتماعی استفاده کردهایم، نمیتوان برای نشان دادن فرایندها در زمینه دیگری مانند وب غذا استفاده کرد.[۱۶]
ویژگیهای کلی مدل ERG[ویرایش]
- مشاهده واحد به جای مشاهدات متوالی
- شبکه مشاهده شده را با استفاده از ویژگیها به گروه شبکههای تصادفی تغییر میدهد.
- همچنان ویژگیهای آماری مارکوف یا شبه مارکوف را محاسبه میکند.
- میتواند هر دو پارامترهای ساختاری و ویژگی را مدل کند.
- فرضیات و محدودیتهای هر شبکه برای تخمینها مهم هستند.
- خطای استاندارد (SE) بهبود یافته است.
- گام قابل توجه به سمت مدلسازی صحیح شبکهها به صورت اتفاقی[۱۶]
مدلهای ERG یک توزیع احتمالی روی هر شبکه ممکن از n گره را نشان میدهد. اندازه مجموعه شبکههای ممکن برای یک گراف ساده با سایز n گره، 2n(n-1)/2 است. به دلیل اینکه تعداد شبکههای ممکن در مجموعه بسیار بیشتر از تعداد پارامترهایی است که میتواند مدل را محدود کند، توزیع احتمالی ایدهال است که آنتروپی گبیز را ماکزیمم کند.[۱]
نمایش مدلهای مختلف شبکه به صورت خانواده نمایی[ویرایش]
وقتی وابستگی متقابل بین نودها وجود داشته باشد، تخمین شکلگیری شبکه نمیتواند در سطح جفت نودها اتفاق بیفتد بلکه باید کل شبکه را در نظر بگیرد. ERGMs این وابستگیها را در نظر میگیرد و بنابراین مدلهای جامعی برای تخمین شکلگیری شبکه هستند. در واقع همانطور که به وسیله نظریه قدرتمند Hammersley و Clifford در [۲۰] 1971 نشان داده شده است، فرم نمایی میتواند هر مدل گراف تصادفی را در برگیرد و وابستگیهای دلخواه درون ارتباطات را نیز شامل شود. البته این نظریه برای شبکههای بدون جهت و بدون وزن مورد استفاده قرار میگیرد. علاوه بر این ERGM انواع مدلهای شکلگیری شبکه استراتژیک (انتخابی) را در نظر میگیرد.
در ERGM احتمال مشاهده یک شبکه (G) به بردار ویژگیهای آن (S(G بستگی دارد و احتمال شبکه متناسب است با:
که β بردار پارامترهای مدل است.
هر مدل شبکه را میتوان به صورت خانواده نمایی با شمارش ویژگیهای آماری گراف بیان کرد. در ادامه تبدیل مدل (Erdös-Rènyi G(n,p به خانواده نمایی آورده شده است. در این مدل احتمال یک گراف به احتمال هر یال (p) و تعداد یالهای درون گراف ((L(G) بستگی دارد. پس:
که (S1(G همان ویژگی آماری گراف است که در اینجا (L(G میباشد و β1 پارامتر گراف است. c نیز مقدار ثابت است[۱۷].
مدل کردن شبکههای اجتماعی با ERGM[ویرایش]
تکنیکهای معروف زیادی وجود دارند که ویژگیهای یک شبکه را از روی گرهها یا زیرمجموعهای از گرهها اندازهگیری میکنند (مثلا چگالی، مرکزیت و زیرمجموعههای همبسته). این تکنیکها برای توصیف و درک ویژگیهای شبکه خیلی مفید هستند اما برای یافتن یک مدل مناسب از شبکه اجتماعی مشاهده شده، به دلایل زیر میتوان فراتر از این تکنیکها رفته و به خصوص از مدلهای آماری استفاده کرد[۱۴]:
- به دلیل پیچیدگی رفتارهای اجتماعی، به احتمال زیاد متغیرهایی وجود دارد که بعید است بتوانیم آنها را به درستی شناسایی کنیم، مدلهای تصادفی این امکان را میدهد تا این متغیرها را در نظر بگیریم. همانطور که واتس (1999)[۲۱] نشان داده است، "اضافه کردن" مقدار تصادفی کم به یک فرآیند به طور منظم میتواند روی ویژگیهای حاصل تاثیر زیادی بگذارد. در واقع، یک مدل تصادفی باور قطعی نبودن نتایج مشاهده شده را القا میکند.
- گاهی اوقات، فرآیندهای اجتماعی مختلف میتوانند ساختارهای شبکه مشابهی را پیشبینی کنند و تنها با استفاده از مدلسازی دقیق، تفاوت پیشبینیها را میتوان ارزیابی کرد. به عنوان مثال، خوشهبندی شبکهها ممکن است یا با توجه به ساختار کلی شبکه و یا با توجه به ویژگیهای گرهها به دست آید. برای تصمیمگیری بین دو پیشنهاد، نیاز به مدلی است که هر دو اثر را ترکیب کرده و سپس سهم نسبی هر یک را ارزیابی کند.
- با استفاده از شبکه با ساختار پیچیدهتر، مدلها به صورت مناسبتری فرموله شده و کارایی آنها بالا میرود. روشهای قطعی متنوعی برای تجزیه و تحلیل شبکهها وجود دارد، اما بسیاری از آنها برای مدل کردن اطلاعات پیچیده مناسب نیستند. از این رو میتوان از روشهای سادهتر به همراه متغیرهای تصادفی برای ایجاد مدل استفاده کرد.
منابع[ویرایش]
- ↑ ۱٫۰ ۱٫۱ ۱٫۲ "Exponential random graph models". Wikipedia (به انگلیسی). 2019-06-29.
- ↑ ۲٫۰ ۲٫۱ ۲٫۲ https://arxiv.org/pdf/1210.7828
- ↑ Solomonoff, Ray; Rapoport, Anatol (1951-06). "Connectivity of random nets". The Bulletin of Mathematical Biophysics. 13 (2): 107–117. doi:10.1007/bf02478357. ISSN 0007-4985.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Erdos P, Renyi A (1959) On random graphs. Publicationes Mathematicae 6:290–297
- ↑ Erdos P, Renyi A (1960) On the evolution of random graphs. Publications of the Mathematical Institute of the Hungarian Academy of Sciences 5:17–61
- ↑ Holland, Paul W.; Leinhardt, Samuel (1981-03). "An Exponential Family of Probability Distributions for Directed Graphs". Journal of the American Statistical Association. 76 (373): 33–50. doi:10.1080/01621459.1981.10477598. ISSN 0162-1459.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ ۷٫۰ ۷٫۱ Anderson, Carolyn J; Wasserman, Stanley; Crouch, Bradley (1999-01). "A p* primer: logit models for social networks". Social Networks. 21 (1): 37–66. doi:10.1016/s0378-8733(98)00012-4. ISSN 0378-8733.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Burda, Z.; Correia, J. D.; Krzywicki, A. (2001-09-24). "Statistical ensemble of scale-free random graphs". Physical Review E. 64 (4). doi:10.1103/physreve.64.046118. ISSN 1063-651X.
- ↑ Berg, Johannes; Lässig, Michael (2002-11-11). "Correlated Random Networks". Physical Review Letters. 89 (22). doi:10.1103/physrevlett.89.228701. ISSN 0031-9007.
- ↑ Burda, Z.; Krzywicki, A. (2003-04-25). "Uncorrelated random networks". Physical Review E. 67 (4). doi:10.1103/physreve.67.046118. ISSN 1063-651X.
- ↑ Park, Juyong; Newman, M. E. J. (2004-12-07). "Statistical mechanics of networks". Physical Review E. 70 (6). doi:10.1103/physreve.70.066117. ISSN 1539-3755.
- ↑ Fronczak, Agata; Fronczak, Piotr; Hołyst, Janusz A. (2006-01-10). "Fluctuation-dissipation relations in complex networks". Physical Review E. 73 (1). doi:10.1103/physreve.73.016108. ISSN 1539-3755.
- ↑ Newman MEJ (2010) Oxford University Press, Oxford, pp 565–588
- ↑ ۱۴٫۰ ۱۴٫۱ ۱۴٫۲ ۱۴٫۳ Robins, Garry; Pattison, Pip; Kalish, Yuval; Lusher, Dean (2007-05). "An introduction to exponential random graph (p*) models for social networks". Social Networks. 29 (2): 173–191. doi:10.1016/j.socnet.2006.08.002. ISSN 0378-8733.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Hunter, David R.; Handcock, Mark S.; Butts, Carter T.; Goodreau, Steven M.; Morris, Martina (2008). "ergm: A Package to Fit, Simulate and Diagnose Exponential-Family Models for Networks". Journal of Statistical Software. 24 (3). doi:10.18637/jss.v024.i03. ISSN 1548-7660.
- ↑ ۱۶٫۰ ۱۶٫۱ ۱۶٫۲ ۱۶٫۳ Morris, Martina; Handcock, Mark S.; Hunter, David R. (2008). "Specification of Exponential-Family Random Graph Models: Terms and Computational Aspects". Journal of Statistical Software. 24 (4). doi:10.18637/jss.v024.i04. ISSN 1548-7660.
- ↑ ۱۷٫۰ ۱۷٫۱ Chandrasekhar, Arun; Jackson, Matthew (2014-7). "Tractable and Consistent Random Graph Models" (PDF) (به انگلیسی). Cambridge, MA. doi:10.3386/w20276.
{{cite journal}}
: Cite journal requires|journal=
(help); Check date values in:|date=
(help) - ↑ Frank, Ove; Strauss, David (1986-09). "Markov Graphs". Journal of the American Statistical Association. 81 (395): 832. doi:10.2307/2289017. ISSN 0162-1459.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Handcock, M. S. (2003), Assessing Degeneracy in Statistical Models of Social Networks,Working paper no. 39, Center for Statistics and the Social Sciences, University of Washington-Seattle
- ↑ Hammersley, J. and P. Clifford (1971): “Markov fields on finite graphs and lattices,” .
- ↑ Antsaklis, Panos J. (2001). "Large Networks, Small Worlds - Duncan J. Watts: Small Worlds: The Dynamics of Networks between Order and Randomness. (Princeton: Princeton University Press, 1999. Pp. xv, 262. $39.50.)". The Review of Politics. 63 (1): 192–195. doi:10.1017/s0034670500030655. ISSN 0034-6705.