ماهو الفرق بين التنقيب في البيانات والتنقيب في الشبكات الاجتماعية والتنقيب في الويب؟
الكثير ربما لا يفرق بينها، أسفل هذه التغريدة سأشرح هذه الأنواع والفرق بينها بلغة بسيطة وميسرة، وكذلك التحليل الذي يتم سواء على المحتوى أو السلوك أو هيكلة الويب، وذكر أمثلة كلما أمكن
#علم_البيانات
🔷التنقيب في البيانات (Data Mining):
يهدف إلى تحليل البيانات (وصفي–تشخيصي–تنبؤي–توجيهي) باستخدام لغات البرمجة Python و R أو أدوات تحليل جاهزة مثل Tableau، Power BI أو الأدوات المتقدمة كخوارزميات #تعلم_الآلة أو #التعلم_العميق لاستخراج معارف وعلوم من البيانات (نمط-علاقة-توجه-..)
هذا التحليل هو تحليل محتوى، والبيانات تأخذ أشكال عدة (نصوص – أرقام – صور – أصوات)، هذا المحتوى متوفر إما في قواعد بيانات علائقية أو مواقع على الويب أو حتى في الشبكات الاجتماعية، أو من كاميرات المراقبة وأجهزة الاستشعار، وكلما كانت البيانات منظمة (structured) كلما كان تحليلها أسهل
🔷التنقيب في الشبكات الاجتماعية (Social Mining):
يكون على ثلاثة أشكال:
🔸تحليل محتوى: ويشمل تحليل البيانات المتوفرة في الشبكة
🔸تحليل سلوك: ويشمل تحليل سلوك الأفراد على الشبكة
🔸تحليل الشبكة: ويشمل تحليل العلاقات بين أفراد الشبكة
🔸تحليل المحتوى:
تحليل المحتوى في الشبكات الاجتماعية في الغالب ليس سهل كونها بيانات غير منظمة (unstructured)، وذلك كونه يتطلب سحب بيانات نصية لفترات زمنية، ومن ثم معالجتها وتنظيفها قبل ان تكون جاهزة لاستخراج معارف وعلوم منها، من أشهر تطبيقاتها تحليل الآراء (Sentiment Analysis)
🔸تحليل السلوك:
يقصد به تحليل تفاعل الأفراد على الشبكة من خلال استخدامهم لأدوات التفاعل المتوفرة (في تويتر مثلاً : ريتويت – لايك – رد – متابعة – إلغاء متابعة - ...)، أحد الأمثلة تحليل تفاعل الناس مع وسم #الهيئة_السعودية_للبيانات_والذكاء_الاصطناعي https://twitter.com/csibrahim/status/1167895076992761858?s=20
تحليل السلوك يعطي نظرة عامة لرأي الناس الغير مباشر (implicit feedback) اتجاه قضية أو قرار معين، وتكمن أهمية معرفة ذلك السلوك في التسويق للتعرف على توجهات الناس وآرائهم من خلال تفاعلاتهم الغير مكتوبة وبالتالي استهدافهم بالاعلانات والمواد الجاذبة لاهتمامهم
🔸تحليل الشبكة:
يقصد به تحليل العلاقات بين أفراد الشبكة، هنا يكون التركيز على الأفراد أكثر من المحتوى، وتستخدم قياسات رياضية أشهرها قياس درجة المركزية (Degree centrality) والذي يجيب على سؤال: من هو أهم شخص أو الشخص المركزي في الشبكة؟، ويستخدم للتعرف على الأفراد الأكثر تاثيراً
في الشبكات ثنائية الاتجاه (undirected) مثل الصداقة في facebook ، يمكن قياس درجة المركزية بحساب عدد الخطوط التي تربطه بالآخرين، كلما كانت أكثر كلما كان تأثيره أكثر، على سبيل المثال الشخص باللون الأحمر درجته المركزية 5 ويعتبر أكثر تأثيراً من الشخص باللون الأخضر الذي درجته 1
أما في الشبكات أحادية الاتجاه (directed) مثل تويتر (ممكن تتابع من لا يتابعك)، تقاس درجة المركزية باتجاهين (الخطوط الواصلة in-degree و الخطوط الخارجة out-degree)
- الأعلى في الخطوط الواصلة in-degree أكثر أهمية
- والأعلى في الخطوط الخارجة out-degree أكثر مركزية
مقياس آخر وهو القرب من المركزية (Closeness centrality)، ويمكن اعتبار القرب مقياسًا للمدة التي سيستغرقها فرد معين في نشر المعلومات إلى جميع الأفراد الآخرين الموجودين في الشبكة، كلما كانت المدة أقصر كلما كانت أهمية ذلك الشخص في الشبكة أعلى والعكس صحيح
المركزية البينية (Betweenness centrality)، وهنا يكون التركيز على موقع الفرد في الشبكة، كلما كان يقع على أقصر طريق يصل بين أثنين كلما كانت أهميته أعلى، هذا القياس مشتق من مفاتيح التحكم في التواصل بين البشر في الحياة العادية (أعرف فلان الي يعرف فلان الي يقدر يوصلك بفلان) هذا مفهومه
للمهتمين بمعرفة قياس المركزية بأنواعها العديدة، سواء درجة المركزية، أو القرب من المركزية، أو المركزية البينية، هذا الرابط يحتوي على مثال لشبكة مكونة من 7 أفراد مع الشرح المفصل لقياس كل نوع
http://www.sscnet.ucla.edu/soc/faculty/mcfarland/soc112/cent-ans.htm
🔷التنقيب في الويب (Web Mining):
يكون على ثلاثة أشكال:
🔸تحليل محتوى: ويشمل تحليل البيانات المتوفرة في صفحات الانترنت
🔸تحليل سلوك: ويشمل تحليل سلوك الأفراد في استخدام شبكة الانترنت
🔸تحليل هيكل: ويشمل تحليل هيكل ترابط مواقع الانترنت
🔸تحليل المحتوى:
يهدف لسحب بيانات صفحات الانترنت من نصوص وصور وأرقام وتطبيق أدوات معالجة البيانات عليها من إعداد وتنظيف، محتوى الويب مشابه لمحتوى الشبكات الاجتماعية كونه غير منظم (unstructured) ولكنه أكبر حجماً، من أشهر تطبيقاته التلخيص و تصنيف المواضيع Topics Classification
🔸تحليل السلوك:
يقصد به تحليل تصفح المستخدمين لمواقع الانترنت، التعرف على عدد النقرات على رابط معين، الوقت الذي يقضيه المستخدم في صفحة معينة، الصفحات الأكثر زيارة، تكمن أهمية مثل هذا التحليل في ترتيب محتوى الصفحات وتحديد مواقعها حسب أهميتها للمستخدم وللموقع
🔸تحليل هيكل الويب:
بالإضافة إلى احتواء صفحات الويب على النصوص، تحتوي أيضاً على روابط تشعبية (hyperlinks) تربط الصفحة الحالية بصفحة أخرى يتم توجية المستخدم لها لمزيد من المعلومات عن نقطة معينة، الروابط التشعبية تشكل شبكة بين صفحات الانترنت التي ربما تشير لمفهوم المركزية في الويب
إشارة احد صفحات الويب لمحتوى على صفحة أخرى في موقع آخر هي بمثابة موافقة عليه وتأييد لذلك المحتوى، هذه الروابط يستخدمها جوجل في حساب الـ Rank للصفحات في عملية البحث، كلما زادت عدد الروابط التي تشير لصفحة معينة كلما زادت أهميتها
يلاحظ أن علاقات صفحات الويب ببعضها البعض هو سلوك موجود في برمجة الصفحات ويعتبر سلوك جامد (Static) مقارنة مع سلوك الأفراد في تفاعلهم على الشبكات الاجتماعية والذي يعتبر نشط ومتغير باستمرار (Dynamic)
للمهتمين بالتنقيب في البيانات هنا مجموعة كتب مجانية:
https://twitter.com/Dr_Hmood/status/907067984434384896?s=20
والمهتمين بالتنقيب في الشبكات الاجتماعية هنا كتاب مجاني:
https://twitter.com/Dr_Hmood/status/1065185077905301504?s=20
والمهتمين بالتنقيب في الويب هنا كتاب مجاني: https://twitter.com/Dr_Hmood/status/1169248511491227648?s=20
You can follow @Dr_Hmood.
Tip: mention @twtextapp on a Twitter thread with the keyword “unroll” to get a link to it.

Latest Threads Unrolled: