digital 484402 640 1

عملية تنقيب القيم المتطرفة لمجموعة بيانات

قد تحتوي قاعدة البيانات على كائنات بيانات لا تشبه السلوك العام أو نموذج البيانات، وكائنات البيانات هذه هي القيم المتطرفة. يُعرف البحث عن بيانات (OUTLIER) باسم (OUTLIER MINING)، ويمكن اكتشاف الانحراف عن طريق اعتماد الاختبارات الإحصائية. افترض وجود نموذج توزيع أو احتمالية للبيانات، أو باستخدام مقاييس المسافة، فإن الكائنات التي تحتوي على بعض جيرانها “القريبين” في الفضاء تعتبر قيمًا متطرفة.

تعرف على عملية تعدين القيم المتطرفة الجماعية؟

نظرًا لوجود القيم المتطرفة الإجمالية بشكل شائع في اكتشاف التطفل، مثل عندما يستمر عدد من أجهزة الكمبيوتر في إرسال حزم رفض الخدمة، فإن مجموعة فرعية من كائنات البيانات ستنحرف بشكل جماعي عن مجموعة البيانات بأكملها، حتى لو لم تكن كائنات البيانات الفردية قيمًا متطرفة. بعضها البعض.

القيم المتطرفة هي البيانات التي تنحرف بشكل كبير عن البيانات الأخرى، ولا تتوافق مع النمط العام أو سلوك البيانات، وتتعارض مع البيانات الأخرى المتاحة، وغالبًا ما تحتوي على كمية كبيرة من المعلومات القيمة التي لا يكتشفها البشر بسهولة. إنه فرع مهم من التنقيب عن البيانات ويتم تطبيقه على نطاق واسع في سوق الأمن، وتحليل البيانات الطيفية الفلكية، ومراقبة الشبكة، والاحتيال المالي، وتحليل الطقس.

في بيانات الكتلة عالية الأبعاد، نظرًا لحجم البيانات الكبير والأبعاد العالية، يتأثر التعدين وكفاءة البيانات الزائدة بشدة، وقد لا يتم العثور على بعض البيانات الخارجية المخفية في الفضاء الجزئي وبعض البيانات الخارجية المحلية الموزعة على الحافة.

نظرًا لخاصية التجميع لمجموعة بيانات متفرقة عالية الأبعاد، يكون توزيع البيانات الخارجية عادةً في فضاء فرعي محدد بدلاً من مساحة الميزة بأكملها، ولكن بسبب الميزات غير ذات الصلة، تكون بنية كتلة البيانات أكثر ضبابية، وإذا كان لا يمكن العثور على بنية الكتلة في مجموعة البيانات بشكل جيد، فمن الصعب الاستكشاف الخارجي في مجموعة البيانات لا يمكن توفير التنقيب المفرط في البيانات.

كيف تعدين القيم المتطرفة الجماعية؟

تسمى مجموعة عناصر البيانات التي تنحرف بشكل كبير عن مجموعة البيانات بأكملها “مجموعة خارجية”، وفي البيانات المجمعة الخارجية، من المحتمل أن يكون كل كائن بعيدًا ويكون اكتشاف القيم المتطرفة الإجمالية أكثر صعوبة من الآخر. الإدراك التقليدي والسياقي خارج الحواس، حيث يجب دراسة بنية العلاقات الجماعية بين كائنات بيانات متعددة.

يعتمد التعدين المجمّع للقيم المتطرفة للبيانات كليًا على نوع بنية البيانات، لكن التحديد المسبق لهيكل كائنات البيانات يعد مهمة صعبة وقد يكون مستحيلًا في بعض الأحيان. يستكشف الهياكل الداخلية التي تشكل هياكل البيانات المؤقتة، مثل أجزاء من السلاسل الزمنية. أو التسلسلات اللاحقة. يبحث في المناطق المحلية. لاكتشاف القيم المتطرفة الإجمالية في البيانات المكانية.

كما يستكشف المخططات الفرعية في الرسم البياني وبيانات الشبكة المترابطة، حيث يشبه الاكتشاف الخارجي للسياق اكتشاف القيم المتطرفة الإجمالية ؛ في كل من تعرف على طرق الكشف هذه، يتم استكشاف البنى التحتية المحلية والمناطق، وفي اكتشاف القيم المتطرفة السياقية، يعد سياق كائنات البيانات هو السمة الرئيسية للكشف عن الحالات الشاذة.

تعد المعلومات السياقية هنا هي الميزة الهيكلية، كما أن اكتشاف القيم المتطرفة أمر صعب نظرًا لأنه يتم التحقيق في هياكل البيانات لاكتشاف القيم المتطرفة، كما أنها تعتمد أيضًا على نوع التطبيق وكائنات البيانات، ولأن عملية التعدين للكشف عن القيم المتطرفة الجماعية تنطوي على العديد من تقنيات استخراج البيانات المعقدة والتعلم الآلي هو عبارة عن تكاليف حسابية عالية، ولكن في كثير من الحالات يكون الاكتشاف الجماعي للقيم المتطرفة ممكنًا.

أنواع عمليات التعدين الخارجية الجماعية

تعرف على طرق الكشف عن الدُفعة للقيم المتطرفة من نوعين مختلفين ؛ في الفئة الأولى، يتم تقليل مشكلة الاكتشاف الخارجي الجماعي إلى الكشف الشاذ التقليدي ويحدد الوحدات الهيكلية للبيانات ومن كل وحدة هيكلية إما مقطع سلسلة زمنية أو منطقة محلية أو مخطط فرعي يتم استخراج الميزات المهمة لتحديد القيم المتطرفة الجماعية، من الممكن الآن الكشف عن تحويل مشكلة القيم المتطرفة الجماعية إلى القيم المتطرفة الخارجية.

تعتبر كائنات البيانات التي ينحرف سلوكها عن الخصائص التي يتم استنتاجها من الهياكل قيمًا متطرفة، وبينما تُظهر جميع الكائنات العادية سلوكًا هيكليًا مشابهًا، فإن الفئة الثانية من الكشف الكلي عن الانحراف هي بناء نموذج للسلوك المتوقع للوحدات الهيكلية للسمات. على سبيل المثال، لاكتشاف القيم، يمكن نمذجة التجاوزات الإجمالية في البيانات المكانية عن طريق طرح الكيفية المناسبة للوحدات الهيكلية لسمات البيانات.

يتم تعريف كائنات البيانات على أنها قيم متطرفة مجمعة إذا انحرفت عن النموذج. بالنظر إلى مجموعة البيانات، فإن مجموعة فرعية من كائنات البيانات تثير استثناءً مجمعًا إذا كانت الكائنات ككل تنحرف بشكل كبير عن مجموعة البيانات بأكملها. التعرف على تعرف على اهم من ذلك، كائنات البيانات الفردية، القيم المتطرفة.

التعدين للقيم المتطرفة السائبة باستخدام الرسوم البيانية

يمكن إجراء التعدين الخارجي الشامل على الشبكة الاجتماعية، ويمكن اعتبار الشبكات الاجتماعية كرسم بياني غير مسمى، ويمكن التعامل مع كل مخطط فرعي محتمل للشبكة أو الرسم البياني كوحدة هيكلية وهو معيار مهم لاكتشاف القيم المتطرفة. حيث تكون السمتان هما عدد الرؤوس في الرسم البياني الفرعي (S) ويكرر الرسم البياني الفرعي المعين في الشبكة لاكتشاف القيم المتطرفة في الرسم البياني أو الشبكة.

من حيث التردد (S)، هو عدد الرسوم البيانية الفرعية في الشبكة ذات الخصائص المتشابهة والمتشابهة ؛ بحيث إذا كان الرسم البياني الفرعي يحتوي على أكثر من رأس واحد وتردد أعلى مقارنة بالرسوم البيانية الفرعية الأخرى، فسيتم تعريفه على أنه تحيز جماعي، وبشكل عام، من المتوقع أن تكون الرسوم البيانية الفرعية ذات الرؤوس الأقل رسومًا فرعية متكررة.

يُفترض أن تكون الحبكات الفرعية الكبيرة أقل تكرارًا، ولكن إذا كان كل من تكرار وعدد القمم مرتفعًا أثناء التجربة، فسيتم الإبلاغ عن هذه القيم المتطرفة على الشبكة الاجتماعية ويكون اكتشاف المستعرف على اهمة الخارجية صحيحًا بسبب صعوبة التحقيق في الهياكل. بيانات.

غالبًا ما يستخدم الاكتشاف الاستدلال وبالتالي قد يعتمد على التطبيق. غالبًا ما تكون التكلفة الحسابية مرتفعة بسبب عملية التعدين المعقدة. على الرغم من أنه مفيد للغاية في الممارسة العملية، إلا أن اكتشاف القيم المتطرفة الإجمالية لا يزال يمثل جانبًا صعبًا يتطلب مزيدًا من البحث والتطوير.

Similar Posts

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *