كيف تكون خزائن البيانات هي مستقبل تخزين البيانات[+5 Learning Resources]

نظرًا لأن الشركات تولد المزيد والمزيد من البيانات ، يصبح النهج التقليدي لتخزين البيانات صعبًا ومكلفًا بشكل متزايد. يوفر Data Vault ، وهو نهج جديد نسبيًا لتخزين البيانات ، حلاً لهذه المشكلة من خلال توفير طريقة قابلة للتطوير ورشيقة وفعالة من حيث التكلفة لإدارة كميات كبيرة من البيانات.
في هذا المنشور ، سوف نستكشف كيف أن خزانات البيانات هي مستقبل تخزين البيانات ولماذا يتبنى المزيد والمزيد من الشركات هذا النهج. سنوفر أيضًا موارد تعليمية لأولئك الذين يرغبون في التعمق في الموضوع!
ما هو Data Vault؟
Data Vault عبارة عن تقنية لنمذجة مستودع البيانات مناسبة بشكل خاص لمخازن البيانات الرشيقة. إنه يوفر درجة عالية من المرونة للامتدادات ، وتاريخ كامل للوحدة الزمنية للبيانات ، ويسمح بموازنة قوية لعمليات تحميل البيانات. طور Dan Linstedt نمذجة Data Vault في التسعينيات.
بعد نشرها لأول مرة في عام 2000 ، اكتسبت اهتمامًا أكبر في عام 2002 من خلال سلسلة من المقالات. في عام 2007 ، فاز Linstedt بتأييد Bill Inmon ، الذي وصفه بأنه “الخيار الأمثل” لهندسة Data Vault 2.0 الخاصة به.
أي شخص يتعامل مع مصطلح مستودع البيانات السريع سينتهي به الحال بسرعة إلى Data Vault. ما يميز التكنولوجيا هو أنها تركز على احتياجات الشركات لأنها تتيح تعديلات مرنة ومنخفضة الجهد على مستودع البيانات.
يأخذ Data Vault 2.0 في الاعتبار عملية التطوير بأكملها والبنية ويتكون من طريقة المكونات (التنفيذ) والبنية والنموذج. الميزة هي أن هذا النهج يأخذ في الاعتبار جميع جوانب ذكاء الأعمال مع مستودع البيانات الأساسي أثناء التطوير.
يقدم نموذج Data Vault حلاً حديثًا للتغلب على قيود أساليب نمذجة البيانات التقليدية. بفضل قابليته للتوسع والمرونة وخفة الحركة ، فإنه يوفر أساسًا متينًا لبناء نظام أساسي للبيانات يمكنه استيعاب تعقيد وتنوع بيئات البيانات الحديثة.
تعمل بنية المحور والتحدث في Data Vault وفصل الكيانات والسمات على تمكين تكامل البيانات وتنسيقها عبر أنظمة ومجالات متعددة ، مما يسهل التطوير التدريجي والمرن.
يتمثل الدور الحاسم لمخزن البيانات في بناء نظام أساسي للبيانات في إنشاء مصدر واحد للحقيقة لجميع البيانات. تتيح رؤيتها الموحدة للبيانات ودعمها لالتقاط وتتبع تغييرات البيانات التاريخية من خلال جداول الأقمار الصناعية الامتثال والتدقيق والمتطلبات التنظيمية والتحليل الشامل وإعداد التقارير.
تسهل إمكانات تكامل البيانات في الوقت الفعلي القريب لمخزن البيانات عبر تحميل دلتا التعامل مع كميات كبيرة من البيانات في البيئات سريعة التغير مثل تطبيقات البيانات الكبيرة وإنترنت الأشياء.
خزنة البيانات مقابل نماذج مستودع البيانات التقليدية
النموذج العادي الثالث (3NF) هو أحد أشهر نماذج مستودعات البيانات التقليدية ، وغالبًا ما يُفضل في العديد من التطبيقات الكبيرة. بالمناسبة ، هذا يتوافق مع أفكار بيل إنمون ، أحد “أسلاف” مفهوم مستودع البيانات.
تعتمد بنية Inmon على نموذج قاعدة البيانات العلائقية وتزيل التكرار عن طريق تقسيم مصادر البيانات إلى جداول أصغر يتم تخزينها في مجموعات البيانات والمترابطة باستخدام المفاتيح الأساسية والأجنبية. يضمن أن البيانات متسقة ودقيقة من خلال فرض قواعد السلامة المرجعية.
كان الهدف من النموذج العادي هو بناء نموذج بيانات شامل على مستوى الشركة لمستودع البيانات الأساسية ؛ ومع ذلك ، فإنه يحتوي على مشكلات في قابلية التوسع والمرونة بسبب مجموعات البيانات شديدة الاقتران ، وصعوبات التحميل في وضع شبه الوقت الفعلي ، والطلبات الشاقة ، والتصميم من أعلى إلى أسفل ، والتنفيذ.
نموذج Kimbal ، المستخدم في OLAP (المعالجة التحليلية عبر الإنترنت) ومحلات البيانات ، هو نموذج مستودع بيانات مشهور آخر تحتوي فيه جداول البيانات الواقعية على بيانات مجمعة وجداول أبعاد تصف البيانات المخزنة في مخطط نجمي أو تصميم مخطط ندفة الثلج. في هذه البنية ، يتم تنظيم البيانات في جداول الحقائق والأبعاد التي تم إلغاء تنسيقها لتبسيط الاستعلام والتحليل.
يعتمد Kimbal على نموذج الأبعاد الذي تم تحسينه للاستعلام وإعداد التقارير ، مما يجعله مثاليًا لتطبيقات ذكاء الأعمال. ومع ذلك ، فقد واجهت مشكلات في عزل المعلومات الموجهة للموضوع ، وتكرار البيانات ، وهياكل الاستعلام غير المتوافقة ، وصعوبات قابلية التوسع ، والتباين غير المتسق لجداول الحقائق ، ومشكلات المزامنة ، والحاجة إلى تصميم من أعلى إلى أسفل مع تنفيذ من أسفل إلى أعلى.
في المقابل ، فإن بنية مخزن البيانات هي نهج هجين يجمع بين جوانب كل من بنيات 3NF و Kimball. إنه نموذج يعتمد على المبادئ العلائقية وتطبيع البيانات ورياضيات التكرار التي تمثل العلاقات بين الكيانات بشكل مختلف وهيكلة حقول الجدول والطوابع الزمنية بشكل مختلف.
في هذه البنية ، يتم تخزين جميع البيانات في قبو بيانات خام أو بحيرة بيانات ، في حين يتم تخزين البيانات شائعة الاستخدام بتنسيق عادي في قبو أعمال يحتوي على بيانات تاريخية وبيانات خاصة بالسياق يمكن استخدامها لإعداد التقارير.
يعالج Data Vault المشكلات الموجودة في النماذج التقليدية من خلال كونه أكثر كفاءة وقابلية للتوسع ومرونة. يسمح بالتحميل في الوقت الفعلي تقريبًا ، وتكامل أفضل للبيانات ، وسهولة التوسع دون التأثير على الهياكل الحالية. يمكن أيضًا توسيع النموذج بدون ترحيل الجداول الموجودة.
نهج النمذجة هيكل البيانات نهج التصميم 3 NF النمذجة الجداول في 3NF أسفل إلى أعلى Kimbal النمذجة مخطط النجوم أو مخطط ندفة الثلج أعلى أسفل البيانات VaultHub-and-SpokeBottom-up
هندسة مخزن البيانات
يحتوي Data Vault على بنية محور وتحدث ويتكون أساسًا من ثلاث طبقات:
طبقة التدريج: تجمع البيانات الأولية من الأنظمة المصدر ، مثل CRM أو ERP
طبقة مستودع البيانات: عند تصميمها كنموذج Data Vault ، فإن هذه الطبقة تتضمن:
- مخزن البيانات الخام: يخزن البيانات الأولية.
- مخزن بيانات الأعمال: يتضمن بيانات منسقة ومحولة بناءً على قواعد العمل (اختياري).
- Metrics Vault: يخزن معلومات وقت التشغيل (اختياري).
- المخزن التشغيلي: يخزن البيانات التي تتدفق مباشرة من أنظمة التشغيل إلى مستودع البيانات (اختياري.)
طبقة البيانات مارت: هذه الطبقة نماذج البيانات كمخطط نجمي و / أو تقنيات النمذجة الأخرى. يوفر معلومات للتحليل وإعداد التقارير.
مصدر الصورة: لمياء يسعد
لا يتطلب Data Vault إعادة هندسة. يمكن إنشاء وظائف جديدة بالتوازي مباشرةً باستخدام مفاهيم وطرق Data Vault ، ولا تُفقد المكونات الحالية. يمكن أن تجعل الأطر العمل أسهل بشكل كبير: فهي تنشئ طبقة بين مستودع البيانات والمطور وبالتالي تقلل من تعقيد التنفيذ.
مكونات Data Vault
أثناء النمذجة ، يقسم Data Vault جميع المعلومات التي تنتمي إلى الكائن إلى ثلاث فئات – على عكس نمذجة النموذج العادي الثالث الكلاسيكي. ثم يتم تخزين هذه المعلومات بشكل منفصل عن بعضها البعض. يمكن تعيين المجالات الوظيفية في Data Vault فيما يسمى بالمحاور والروابط والأقمار الصناعية:
# 1. المحاور
المحاور هي قلب مفهوم الأعمال الأساسي ، مثل العميل أو البائع أو البيع أو المنتج. يتكون الجدول المحوري حول مفتاح العمل (اسم المتجر أو الموقع) عندما يتم تقديم مثيل جديد لمفتاح العمل هذا لأول مرة في مستودع البيانات.
لا يحتوي المحور على معلومات وصفية ولا يحتوي على ملفات FK. وهو يتألف فقط من مفتاح العمل ، مع تسلسل مُنشأ في المستودع للمعرف أو مفاتيح التجزئة ، وختم تاريخ / وقت التحميل ، ومصدر السجل.
# 2. الروابط
الروابط تنشئ علاقات بين مفاتيح الأعمال. يمثل كل إدخال في ارتباط نماذج علاقات نانومتر لأي عدد من المحاور. يسمح لخزانة البيانات بالتفاعل بمرونة مع التغييرات في منطق الأعمال للأنظمة المصدر ، مثل التغييرات في العلاقات الودية. تمامًا مثل المحور ، لا يحتوي الارتباط على أي معلومات وصفية. وهو يتألف من معرّفات التسلسل للمحاور التي تشير إليها ، ومعرّف التسلسل المُنشأ في المستودع ، وطابع تاريخ / وقت التحميل ، ومصدر السجل.
# 3. الأقمار الصناعية
تحتوي الأقمار الصناعية على معلومات وصفية (سياق) لمفتاح عمل مخزن في مركز أو علاقة مخزنة في ارتباط. تعمل الأقمار الصناعية “إدراج فقط” ، مما يعني أنه يتم تخزين سجل البيانات الكامل في القمر الصناعي. يمكن أن تصف الأقمار الصناعية المتعددة مفتاح عمل واحد (أو علاقة). ومع ذلك ، يمكن للقمر الصناعي أن يصف مفتاحًا واحدًا فقط (محور أو رابط).
مصدر الصورة: Carbidfischer
كيفية بناء نموذج Data Vault
يتضمن بناء نموذج Data Vault عدة خطوات ، كل منها أمر بالغ الأهمية لضمان أن يكون النموذج قابلاً للتطوير ومرنًا وقادرًا على تلبية احتياجات الأعمال:
# 1. تحديد الكيانات والسمات
تحديد الكيانات التجارية والسمات المقابلة لها. إنه ينطوي على العمل عن كثب مع أصحاب المصلحة في الأعمال لفهم متطلباتهم والبيانات التي يحتاجون إلى الحصول عليها. بمجرد تحديد هذه الكيانات والسمات ، قم بفصلها إلى محاور وروابط وأقمار صناعية.
# 2. تحديد علاقات الكيانات وإنشاء روابط
بمجرد تحديد الكيانات والسمات ، يتم تحديد العلاقات بين الكيانات وإنشاء الارتباطات لتمثيل هذه العلاقات. يتم تعيين مفتاح عمل لكل ارتباط يحدد العلاقة بين الكيانات. ثم يتم إضافة الأقمار الصناعية لالتقاط سمات وعلاقات الكيانات.
# 3. وضع القواعد والمعايير
بعد إنشاء الروابط ، يجب وضع مجموعة من القواعد ومعايير نمذجة خزنة البيانات لضمان مرونة النموذج ويمكنه التعامل مع التغييرات بمرور الوقت. يجب مراجعة هذه القواعد والمعايير وتحديثها بانتظام للتأكد من أنها تظل ملائمة ومتوافقة مع احتياجات العمل.
# 4. املأ النموذج
بمجرد إنشاء النموذج ، يجب ملؤه بالبيانات باستخدام نهج التحميل المتزايد. يتضمن تحميل البيانات في المحاور والروابط والأقمار الصناعية باستخدام أحمال دلتا. يتم تحميل دلتا لضمان تحميل التغييرات التي تم إجراؤها على البيانات فقط ، مما يقلل الوقت والموارد اللازمة لتكامل البيانات.
# 5. اختبار والتحقق من صحة النموذج
أخيرًا ، يجب اختبار النموذج والتحقق من صحته للتأكد من أنه يلبي متطلبات العمل وقابل للتطوير ومرن بدرجة كافية للتعامل مع التغييرات المستقبلية. يجب إجراء الصيانة والتحديثات المنتظمة لضمان بقاء النموذج متوافقًا مع احتياجات العمل واستمراره في تقديم عرض موحد للبيانات.
مصادر التعلم في Data Vault
يمكن أن يوفر إتقان مخزن البيانات مهارات ومعرفة قيّمة مطلوبة بشدة في الصناعات القائمة على البيانات اليوم. فيما يلي قائمة شاملة بالموارد ، بما في ذلك الدورات والكتب ، التي يمكن أن تساعد في تعلم تعقيدات Data Vault:
# 1. نمذجة مستودع البيانات باستخدام Data Vault 2.0
تعد دورة Udemy هذه مقدمة شاملة لنهج نمذجة Data Vault 2.0 وإدارة المشاريع الرشيقة وتكامل البيانات الكبيرة. تغطي الدورة أساسيات وأساسيات Data Vault 2.0 ، بما في ذلك بنيتها وطبقاتها ، وأقبية الأعمال والمعلومات ، وتقنيات النمذجة المتقدمة.
يعلمك كيفية تصميم نموذج Data Vault من البداية ، وتحويل النماذج التقليدية مثل 3NF والنماذج ذات الأبعاد إلى Data Vault ، وفهم مبادئ النمذجة الأبعاد في Data Vault. تتطلب الدورة معرفة أساسية بقواعد البيانات وأساسيات SQL.
مع تصنيف عالٍ يصل إلى 4.4 من أصل 5 وأكثر من 1700 تقييم ، تعد هذه الدورة التدريبية الأكثر مبيعًا مناسبة لأي شخص يتطلع إلى بناء أساس قوي في Data Vault 2.0 وتكامل البيانات الكبيرة.
# 2. شرح نمذجة مخزن البيانات مع حالة الاستخدام
تهدف دورة Udemy هذه إلى إرشادك في بناء نموذج Data Vault باستخدام مثال عملي عملي. إنه بمثابة دليل للمبتدئين لنمذجة Data Vault ، ويغطي المفاهيم الأساسية مثل السيناريوهات المناسبة لاستخدام نماذج Data Vault ، والقيود المفروضة على نمذجة OLAP التقليدية ، ونهج منظم لإنشاء نموذج Data Vault. الدورة متاحة للأفراد ذوي الحد الأدنى من المعرفة بقاعدة البيانات.
# 3. The Data Vault Guru: دليل عملي
يعد Data Vault Guru من إعداد السيد باتريك كوبا دليلاً شاملاً لمنهجية مخزن البيانات ، والذي يوفر فرصة فريدة لنمذجة مستودع بيانات المؤسسة باستخدام مبادئ التشغيل الآلي المشابهة لتلك المستخدمة في تسليم البرامج.
يقدم الكتاب نظرة عامة على الهندسة المعمارية الحديثة ثم يقدم دليلاً شاملاً حول كيفية تقديم نموذج بيانات مرن يتكيف مع التغييرات في المؤسسة ، خزنة البيانات.
بالإضافة إلى ذلك ، يوسع الكتاب منهجية مخزن البيانات من خلال توفير التصحيح الآلي للخط الزمني ، ومسارات التدقيق ، والتحكم في البيانات الوصفية ، والتكامل مع أدوات التسليم السريع.
# 4. إنشاء مستودع بيانات قابل للتطوير باستخدام Data Vault 2.0
يوفر هذا الكتاب للقراء دليلًا شاملاً لإنشاء مستودع بيانات قابل للتطوير من البداية إلى النهاية باستخدام منهجية Data Vault 2.0.
يغطي هذا الكتاب جميع الجوانب الأساسية لبناء مستودع بيانات قابل للتطوير ، بما في ذلك تقنية نمذجة Data Vault ، المصممة لمنع حالات فشل تخزين البيانات النموذجية.
يحتوي الكتاب على العديد من الأمثلة لمساعدة القراء على فهم المفاهيم بوضوح. مع رؤى عملية وأمثلة من العالم الحقيقي ، يعد هذا الكتاب موردًا أساسيًا لأي شخص مهتم بتخزين البيانات.
# 5. الفيل في الثلاجة: خطوات إرشادية لنجاح مخزن البيانات
The Elephant in the Fridge من تأليف John Giles هو دليل عملي يهدف إلى مساعدة القراء على تحقيق نجاح Data Vault من خلال البدء بالعمل والانتهاء بالعمل التجاري.
يركز الكتاب على أهمية علم الوجود المؤسسي ونمذجة مفهوم الأعمال ويقدم إرشادات خطوة بخطوة حول كيفية تطبيق هذه المفاهيم لإنشاء نموذج بيانات قوي.
من خلال النصائح العملية وأنماط العينة ، يقدم المؤلف شرحًا واضحًا وغير معقد للموضوعات المعقدة ، مما يجعل الكتاب دليلاً ممتازًا لأولئك الجدد في Data Vault.
الكلمات الأخيرة
يمثل Data Vault مستقبل تخزين البيانات ، حيث يقدم للشركات مزايا كبيرة من حيث المرونة وقابلية التوسع والكفاءة. إنه مناسب بشكل خاص للشركات التي تحتاج إلى تحميل كميات كبيرة من البيانات بسرعة وتلك التي تتطلع إلى تطوير تطبيقات ذكاء الأعمال الخاصة بهم بطريقة مرنة.
علاوة على ذلك ، يمكن للشركات التي لديها بنية صوامع حالية أن تستفيد بشكل كبير من تنفيذ مستودع بيانات أساسي أولي باستخدام Data Vault.
قد تكون مهتمًا أيضًا بالتعرف على نسب البيانات.