شرح Apache Hive في 5 دقائق أو أقل [+5 Learning Resources]

Apache Hive هو نظام مستودع بيانات موزع ومتسامح مع الأخطاء يتيح التحليلات على نطاق واسع.
مستودع البيانات هو نظام إدارة البيانات الذي يخزن كميات كبيرة من البيانات التاريخية المشتقة من مصادر مختلفة لغرض تحليل البيانات وإعداد التقارير. وهذا بدوره يدعم ذكاء الأعمال مما يؤدي إلى اتخاذ قرارات أكثر استنارة.
يتم تخزين البيانات المستخدمة في Apache Hive في Apache Hadoop ، وهو إطار تخزين بيانات مفتوح المصدر لتخزين البيانات الموزعة ومعالجتها. تم بناء Apache Hive أعلى Apache Hadoop وبالتالي يخزن ويستخرج البيانات من Apache Hadoop. ومع ذلك ، يمكن أيضًا استخدام أنظمة تخزين البيانات الأخرى ، مثل Apache HBase.
أفضل شيء في Apache Hive هو أنه يسمح للمستخدمين بقراءة وكتابة وإدارة مجموعات البيانات الكبيرة والاستعلام عن البيانات وتحليلها باستخدام Hive Query Language (HQL) ، على غرار SQL.
كيف يعمل Apache Hive
توفر Apache Hive واجهة عالية المستوى تشبه SQL للاستعلام عن كميات كبيرة من البيانات المخزنة في نظام الملفات الموزعة Hadoop (HDFS) وإدارتها. عندما يقوم المستخدم بتنفيذ استعلام في Apache Hive ، يتم ترجمة الاستعلام إلى سلسلة من مهام MapReduce التي يتم تنفيذها بواسطة مجموعة Hadoop.
MapReduce هو نموذج لمعالجة كميات كبيرة من البيانات بالتوازي عبر مجموعات موزعة من أجهزة الكمبيوتر. بمجرد اكتمال وظائف MapReduce ، تتم معالجة نتائجها ودمجها لإنتاج نتيجة نهائية واحدة. يمكن تخزين النتيجة النهائية في جدول Hive أو تصديرها إلى HDFS لمزيد من المعالجة أو التحليل.
يمكن تنفيذ الاستعلامات في Hive بشكل أسرع باستخدام الأقسام لتقسيم جداول Hive إلى أجزاء مختلفة بناءً على معلومات الجدول. يمكن تقسيم هذه الأقسام إلى أبعد من ذلك للسماح بالاستعلام السريع جدًا عن مجموعات البيانات الكبيرة. تُعرف هذه العملية باسم الجرافات.
يعد Apache Hive أمرًا ضروريًا للمؤسسات التي تعمل مع البيانات الضخمة. هذا لأنه يسمح لهم بإدارة مجموعات البيانات الكبيرة بسهولة ، ومعالجة البيانات بطريقة سريعة للغاية وإجراء تحليل معقد للبيانات بسهولة. هذا يؤدي إلى تقارير شاملة ومفصلة من البيانات المتاحة مما يسمح باتخاذ قرارات أفضل.
فوائد استخدام Apache Hive
تتضمن بعض مزايا استخدام Apache Hive ما يلي:
سهل الاستخدام
من خلال السماح بالاستعلام عن البيانات باستخدام HQL ، على غرار SQL ، يصبح استخدام Apache Hive متاحًا للمبرمجين وغير المبرمجين على حد سواء. لذلك ، يمكن إجراء تحليل البيانات على مجموعات كبيرة من البيانات دون تعلم أي لغة جديدة أو بناء جملة. لقد كان هذا مساهماً رئيسياً في اعتماد واستخدام Apache Hive من قبل المنظمات.
سريع
يسمح Apache Hive بتحليل البيانات بسرعة كبيرة لمجموعات البيانات الكبيرة من خلال معالجة الدُفعات. في معالجة الدُفعات ، يتم جمع مجموعات البيانات الكبيرة ومعالجتها في مجموعات. يتم دمج النتائج لاحقًا للحصول على النتائج النهائية. من خلال معالجة الدُفعات ، تسمح Apache Hive بالمعالجة السريعة وتحليل البيانات.
موثوق
يستخدم Hive نظام الملفات الموزعة Hadoop (HDFS) لتخزين البيانات. من خلال العمل معًا ، يمكن تكرار البيانات عند تحليلها. يؤدي هذا إلى إنشاء بيئة تتسامح مع الأخطاء حيث لا يمكن فقد البيانات حتى في حالة تعطل أنظمة الكمبيوتر.
يتيح ذلك لـ Apache Hive أن تكون موثوقة للغاية ومتسامحة مع الأخطاء ، مما يجعلها تبرز بين أنظمة تخزين البيانات الأخرى.
القابلة للتطوير
تم تصميم Apache Hive بطريقة تسمح لها بتوسيع مجموعات البيانات المتزايدة والتعامل معها بسهولة. يوفر هذا للمستخدمين حلًا لمستودع البيانات يتم قياسه وفقًا لاحتياجاتهم.
فعاله من حيث التكلفه
بالمقارنة مع حلول تخزين البيانات الأخرى ، يعد Apache Hive ، وهو مفتوح المصدر ، أرخص نسبيًا في التشغيل ، وبالتالي فهو الخيار الأفضل للمؤسسات التي تحرص على تقليل تكاليف العمليات المربحة.
Apache Hive هو حل تخزين بيانات قوي وموثوق لا يتناسب مع احتياجات المستخدم فحسب ، بل يوفر أيضًا حلاً لتخزين البيانات سريعًا وفعالاً من حيث التكلفة وسهل الاستخدام.
ميزات Apache Hive
تشمل الميزات الرئيسية في خلية Apache ما يلي:
# 1. خادم الخلية 2 (HS2)
وهو يدعم المصادقة والتزامن متعدد العملاء وهو مصمم لتقديم دعم أفضل لعملاء API المفتوحين مثل Java Database Connectivity (JDBC) و Open Database Connectivity (ODBC).
# 2. خادم Hive Metastore (HMS)
يعمل HMS كمخزن مركزي للبيانات الوصفية لجداول Hive والأقسام لقاعدة بيانات علائقية. يتم توفير البيانات الوصفية المخزنة في HMS للعملاء باستخدام واجهة برمجة تطبيقات خدمة metastore.
# 3. Hive ACID
يضمن Hive أن جميع المعاملات التي تم إجراؤها متوافقة مع ACID. يمثل ACID السمات الأربع المرغوبة لمعاملات قاعدة البيانات. وهذا يشمل الذرية والاتساق والعزلة والمتانة.
# 4. ضغط بيانات الخلية
ضغط البيانات هو عملية تقليل حجم البيانات التي يتم تخزينها ونقلها دون المساس بجودة وسلامة البيانات. يتم ذلك عن طريق إزالة البيانات التكرارية وغير ذات الصلة أو استخدام ترميز خاص دون المساس بجودة وسلامة البيانات التي يتم ضغطها. يقدم Hive دعمًا خارج الصندوق لضغط البيانات.
# 5. خلية النسخ المتماثل
يحتوي Hive على إطار عمل يدعم النسخ المتماثل لبيانات تعريف Hive وتغييرات البيانات بين المجموعات بغرض إنشاء نسخ احتياطية واستعادة البيانات.
# 6. الأمن والمراقبة
يمكن دمج Hive مع Apache Ranger ، وهو إطار يمكّن من مراقبة وإدارة أمن البيانات ، ومع Apache Atlas ، الذي يمكّن المؤسسات من تلبية متطلبات الامتثال الخاصة بها. يدعم Hive أيضًا مصادقة Kerberos ، وهو بروتوكول شبكة يؤمن الاتصال في الشبكة. الثلاثة معًا يجعلون Hive آمنًا ويمكن ملاحظته.
# 7. خلية LLAP
يحتوي Hive على معالجة تحليلية منخفضة الكمون (LLAP) مما يجعل Hive سريعًا جدًا من خلال تحسين التخزين المؤقت للبيانات واستخدام البنية التحتية للاستعلام الدائم.
# 8. التحسين على أساس التكلفة
يستخدم Hive مُحسِّن استعلام يستند إلى التكلفة ومُحسِّن تنفيذ استعلام بواسطة Apache Calcite لتحسين استعلامات SQL الخاصة به. يستخدم Apache Calcite في بناء قواعد البيانات وأنظمة إدارة البيانات.
الميزات المذكورة أعلاه تجعل Apache Hive نظامًا ممتازًا لتخزين البيانات
حالات الاستخدام لخلية اباتشي
Apache Hive عبارة عن مستودع بيانات متعدد الاستخدامات وحل لتحليل البيانات يتيح للمستخدمين معالجة كميات كبيرة من البيانات وتحليلها بسهولة. تتضمن بعض حالات استخدام Apache Hive ما يلي:
تحليل البيانات
تدعم Apache Hive تحليل مجموعات البيانات الكبيرة باستخدام عبارات تشبه SQL. يتيح ذلك للمؤسسات تحديد الأنماط في البيانات واستخلاص استنتاجات ذات مغزى من البيانات المستخرجة. هذا مفيد في صنع التصميم. تتضمن أمثلة الشركات التي تستخدم Apache Hive لتحليل البيانات والاستعلام عنها AirBnB و FINRA و Vanguard.
تجهيز الدفعات
يتضمن ذلك استخدام Apache Hive لمعالجة مجموعات البيانات الكبيرة جدًا من خلال معالجة البيانات الموزعة في مجموعات. هذا له ميزة السماح بمعالجة سريعة لمجموعات البيانات الكبيرة. مثال على شركة تستخدم Apache Hive لهذا الغرض هي Guardian ، وهي شركة تأمين وإدارة ثروات.
تخزين البيانات
يتضمن هذا استخدام خلية Apache لتخزين وإدارة مجموعات بيانات كبيرة جدًا. بالإضافة إلى ذلك ، يمكن تحليل البيانات المخزنة وإنشاء التقارير من. تشمل الشركات التي تستخدم Apache Hive كحل لمستودع البيانات JPMorgan Chase و Target.
تحليل التسويق والعملاء
يمكن للمؤسسات استخدام Apache Hive لتحليل بيانات العملاء الخاصة بهم ، وإجراء تقسيم العملاء ، والقدرة على فهم عملائهم بشكل أفضل ، وتعديل جهودهم التسويقية لمطابقة فهمهم لعملائهم. هذا تطبيق يمكن لجميع الشركات التي تتعامل مع بيانات العملاء استخدام Apache Hive من أجله.
معالجة ETL (استخراج وتحويل وتحميل)
عند العمل مع الكثير من البيانات في مستودع البيانات ، من الضروري إجراء عمليات مثل تنظيف البيانات واستخراجها وتحويلها قبل أن يتم تحميل البيانات وتخزينها في نظام مستودع البيانات.
بهذه الطريقة ، ستكون معالجة البيانات وتحليلها سريعًا وسهلاً وخاليًا من الأخطاء. يمكن أن تؤدي Apache Hive كل هذه العمليات قبل تحميل البيانات في مستودع البيانات.
ما سبق يشكل حالات الاستخدامات الرئيسية لـ Apache Hive
مصادر التعلم
خلية Apache هي أداة مفيدة جدًا لتخزين البيانات وتحليل البيانات لمجموعات البيانات الكبيرة. ستستفيد المنظمات والأفراد الذين يعملون مع مجموعات البيانات الكبيرة من استخدام Apache hive. لمعرفة المزيد حول Apache Hive وكيفية استخدامها ، ضع في اعتبارك الموارد التالية:
# 1. Hive To ADVANCE Hive (الاستخدام في الوقت الفعلي)
Hive to Advance Hive هي دورة تدريبية مبيعاً حول Udemy أنشأها J Garg ، أحد كبار مستشاري البيانات الضخمة مع أكثر من عشر سنوات من الخبرة في العمل مع تقنيات Apache لتحليل البيانات وتدريب المستخدمين الآخرين.
هذه دورة فريدة من نوعها تأخذ المتعلمين من أساسيات Apache Hive إلى المفاهيم المتقدمة وتتضمن أيضًا قسمًا عن حالات الاستخدام المستخدمة في مقابلات Apache Hive Job. كما يوفر مجموعات البيانات واستعلامات Apache Hive التي يمكن للمتعلمين استخدامها للتدرب أثناء التعلم.
تتضمن بعض مفاهيم Apache Hive المغطاة وظائف متقدمة في الخلية ، وتقنيات الضغط في الخلية ، وإعدادات تكوين الخلية ، والعمل مع جداول متعددة في الخلية ، وتحميل البيانات غير المنظمة في الخلية.
تكمن قوة هذه الدورة في التغطية المتعمقة لمفاهيم الخلية المتقدمة المستخدمة في مشاريع العالم الحقيقي.
# 2. Apache Hive لمهندسي البيانات
هذه هي دورة Udemy التدريبية العملية والقائمة على المشاريع والتي تعلم المتعلمين كيفية العمل مع Apache Hive من مستوى المبتدئين إلى المستوى المتقدم من خلال العمل في مشاريع واقعية.
تبدأ الدورة بنظرة عامة على Apache Hive وتغطي سبب كونها أداة ضرورية لمهندسي البيانات. ثم يستكشف بنية الخلية وتثبيتها وتكوينات Apache Hive الضرورية. بعد وضع الأساس ، تستمر الدورة في تغطية تدفقات استعلام الخلية وميزات الخلية والقيود ونموذج البيانات المستخدم في خلية Apache.
كما يغطي نوع البيانات ولغة تعريف البيانات ولغة معالجة البيانات في الخلية. تغطي الأقسام النهائية مفاهيم الخلية المتقدمة مثل طرق العرض ، والتقسيم ، والتجميع ، والوصلات ، والوظائف المضمنة وعوامل التشغيل.
لتحديد كل شيء ، تغطي الدورة أسئلة وأجوبة المقابلات المتداولة. هذه دورة ممتازة للتعرف على Apache Hive وكيف يمكن تطبيقها في العالم الحقيقي.
# 3. Apache Hive Basic للتقدم
Apache Hive Basic للتقدم هي دورة تدريبية يقدمها Anshul Jain ، وهو مهندس بيانات كبير يتمتع بخبرة كبيرة في العمل مع Apache Hive وأدوات البيانات الضخمة الأخرى.
يقدم هذا مفاهيم Apache Hive بطريقة سهلة الفهم ومناسبة للمبتدئين الذين يتطلعون إلى تعلم حبال Apache Hive.
تغطي الدورة جمل HQL ، وظائف النافذة ، العرض المادي ، عمليات CRUD في الخلية ، تبادل الأقسام ، وتحسين الأداء للسماح بالاستعلام السريع عن البيانات.
ستمنحك هذه الدورة التدريبية خبرة عملية مع Apache Hive بالإضافة إلى المساعدة في معالجة أسئلة المقابلة الشائعة التي من المحتمل أن تواجهها عند التقدم لوظيفة.
# 4. أساسيات Apache Hive
هذا الكتاب مفيد بشكل خاص لمحللي البيانات أو المطورين أو أي شخص مهتم بتعلم كيفية استخدام Apache Hive.
يتمتع المؤلف بأكثر من عشر سنوات من الخبرة في العمل كممارس للبيانات الضخمة في تصميم وتنفيذ هندسة البيانات الضخمة للمؤسسات والتحليلات في مختلف الصناعات.
يغطي الكتاب كيفية إنشاء وإعداد بيئة الخلية ، ووصف البيانات بشكل فعال باستخدام لغة تعريف الخلية ، وربط مجموعات البيانات وتصفيتها في الخلية.
بالإضافة إلى ذلك ، فإنه يغطي تحويلات البيانات باستخدام فرز الخلية وترتيبها ووظائفها ، وكيفية تجميع البيانات وأخذ عينات منها ، وكيفية تعزيز أداء استعلامات Hive وتعزيز الأمان في Hive. أخيرًا ، يغطي التخصيصات في خلية Apache ، ويعلم المستخدمين كيفية تعديل Apache Hive لتلبية احتياجاتهم من البيانات الضخمة.
# 5. كتاب الطبخ Apache Hive
يوفر Apache Hive Cookbook ، المتوفر في Kindle و paperback ، طريقة سهلة للمتابعة والتطبيق العملي على Apache Hive ، مما يتيح لك تعلم وفهم Apache Hive وتكامله مع الأطر الشائعة في البيانات الضخمة.
يغطي هذا الكتاب ، المخصص للقراء الذين لديهم معرفة مسبقة بـ SQL ، كيفية تكوين Apache Hive مع Hadoop والخدمات في Hive ونموذج بيانات Hive وتعريف بيانات Hive ولغة المعالجة.
بالإضافة إلى ذلك ، فإنه يغطي ميزات القابلية للتوسعة في Hive ، والانضمام إلى التحسين والانضمام إليه ، والإحصاءات في Hive ، ووظائف Hive ، وضبط Hive للتحسين ، والأمان في Hive ، ويختتم بتغطية متعمقة لتكامل Hive مع الأطر الأخرى.
خاتمة
تجدر الإشارة إلى أن Apache Hive هو الأفضل استخدامًا لمهام تخزين البيانات التقليدية وغير مناسب لمعالجة المعاملات عبر الإنترنت. تم تصميم Apache لزيادة الأداء وقابلية التوسع والتسامح مع الأخطاء والاقتران غير المستقر بتنسيقات الإدخال الخاصة به.
المنظمات التي تتعامل مع كميات كبيرة من البيانات وتعالجها ستستفيد بشكل كبير من الميزات القوية التي تقدمها Apache Hive. هذه الميزات مفيدة جدًا في تخزين مجموعات البيانات الكبيرة وتحليلها.
يمكنك أيضًا استكشاف بعض الاختلافات الرئيسية بين Apache Hive و Apache Impala.