ما لم تكن تعرفه عن AWS Glue

تزداد شعبية Amazon Glue لأن العديد من الشركات بدأت في استخدام خدمات تكامل البيانات المُدارة.

ETL هي عملية تنقل البيانات من قاعدة بيانات المصدر إلى مستودع البيانات. ETL معقد ويصعب تنفيذه لجميع بيانات المؤسسة نظرًا لتعقيدها. قدمت أمازون AWS Glue لمعالجة هذه المشكلة.

يستخدم مطورو ETL ومهندسو البيانات Glue لإنشاء مهام سير عمل ETL ومراقبتها وتشغيلها.

ما المقصود بـ AWS Glue؟

تعمل AWS Glue ، وهي خدمة تكامل بيانات بدون خادم ، على تسهيل العثور على البيانات وتجهيزها ونقلها ودمجها من مصادر متعددة. هذا مفيد للتعلم الآلي (ML) والتحليلات.

إنه يقلل بشكل كبير من الوقت المطلوب لإعداد البيانات للتحليل. يقوم تلقائيًا بالعثور على البيانات وسردها ، وإنشاء رمز Scala أو Python لنقل البيانات من المصدر ، وتحميل الوظيفة وتحويلها وفقًا للأحداث المحددة بوقت.

يتيح ذلك جدولة مرنة وإنشاء بيئة Apache Spark التي يمكن تحجيمها لتحميل البيانات المستهدف. بالإضافة إلى ذلك ، يوفر AWS Glue مراقبة وتعديل تدفق البيانات المعقدة. AWS Glue هي خدمة بدون خادم تعمل على تبسيط العمليات المعقدة لتطوير التطبيقات.

يسمح بالتكامل السريع للبيانات الصالحة المتعددة. كما أنه يتفكك ويفوض البيانات بسرعة.

ما هو استخدام AWS Glue؟

من المهم معرفة أفضل الأماكن لاستخدام Amazon Glue. هذه مجرد أمثلة قليلة لاستخدامات AWS Glue التي يجب أن تفكر فيها.

  • Glue هي أداة تسمح لك بتشغيل استعلامات بدون خادم على بحيرات بيانات Amazon S3. يعد Amazon Glue أداة رائعة للبدء. فهو يجعل جميع بياناتك قابلة للوصول في واجهة واحدة ، مما يسمح لك بتحليلها دون الحاجة إلى نقلها.
  • يمكن استخدام Amazon Glue لفهم أصول البيانات الخاصة بك. يجعل Amazon Glue من السهل عليك البحث عن مجموعات بيانات AWS مختلفة باستخدام كتالوج البيانات. يمكنك أيضًا حفظ البيانات عبر خدمات AWS المتعددة باستخدام كتالوج البيانات مع الاستمرار في الحصول على عرض متسق.
  • يمكن أن يكون الغراء مفيدًا عند إنشاء مهام سير عمل ETL تعتمد على الأحداث. يمكنك تنفيذ عمليات ETL الخاصة بك من Amazon S3 عن طريق استدعاء مهام Glue ETL الخاصة بك عبر خدمة AWS Lambda.
  • يمكن أيضًا استخدام AWS Glue لتنظيف البيانات والتحقق منها وتنسيقها وتنظيمها للتخزين في بحيرة بيانات أو مستودع.

ما هي مكونات AWS Glue؟

فيما يلي المكونات الرئيسية لـ AWS Glue:

  • كتالوج البيانات: يحتوي كتالوج البيانات هذا على البيانات الوصفية وهيكل البيانات.
  • قاعدة البيانات: هذا هو مفتاح الوصول إلى قاعدة البيانات وإنشائها للمصادر والأهداف.
  • الجدول: قم بإنشاء جدول واحد أو عدة جداول في قاعدة البيانات يمكن استخدامها بواسطة كل من الهدف والمصدر.
  • الزاحف والمصنف: يسترد الزاحف البيانات من المصدر باستخدام إما التصنيفات المضمنة أو المخصصة. يقوم بإنشاء / استخدام جداول البيانات الوصفية المحددة مسبقًا في كتالوج البيانات.
  • الوظيفة: هذه هي وظيفة منطق الأعمال لأداء مهمة ETL. تمت كتابة منطق الأعمال هذا داخليًا بواسطة Apache Spark باستخدام لغات python و scala.
  • Trigger: مشغل ETL هو جهاز يبدأ في تنفيذ مهمة ETL عند الطلب أو في وقت معين.
  • نقطة النهاية للتطوير: يؤدي ذلك إلى إنشاء بيئة يتم فيها اختبار البرنامج النصي لوظيفة ETL وتطويره وتصحيحه.
  سطور الأوامر: لماذا لا يزال الناس يضايقونهم؟

فوائد AWS Glue

هذه هي فوائد استخدامه في مكان عملك أو داخل المنظمة.

  • تقوم AWS Glue بفحص جميع البيانات المتاحة مع الزاحف.
  • يمكن تخزين البيانات النهائية المعالجة في العديد من الأماكن (Amazon RDS و Amazon Redshift و Amazon S3 ، إلخ.
  • إنها خدمة قائمة على السحابة. ليست هناك حاجة لإنفاق الأموال على البنى التحتية في أماكن العمل.
  • نظرًا لأنه ETL بدون خادم ، فهو خيار فعال من حيث التكلفة.
  • إنه سريع. يمنحك على الفور كود Python / Scala ETL.

أهم ميزات AWS Glue؟

يحتوي Amazon Glue على جميع الميزات التي تحتاجها لدمج البيانات حتى تتمكن من الحصول على رؤى أفضل واستخدام معرفتك لتحقيق تقدم جديد في دقائق بدلاً من شهور. فيما يلي بعض الميزات التي يجب أن تعرفها.

  • واجهة السحب والإفلات: يتيح لك محرر مهام السحب والإفلات إنشاء عملية ETL. ستقوم AWS Glue على الفور بإنشاء الكود المطلوب لاستخراج البيانات وتحويلها وتحميلها.
  • اكتشاف المخطط التلقائي: لإنشاء برامج زحف تتصل بمصادر بيانات مختلفة ، يمكنك استخدام خدمة الغراء. ينظم البيانات ويستخرج المعلومات ذات الصلة. يمكن بعد ذلك استخدام هذه البيانات لمراقبة عمليات ETL بواسطة مهام ETL.
  • جدولة العمل: يمكن استخدام الغراء عند الطلب أو وفقًا لجدول زمني مجدول. يمكن استخدام المجدول لبناء خطوط أنابيب ETL المعقدة ، وإنشاء التبعيات بين المهام.
  • إنشاء الكود: يتيح لك Glue Elastic Views إنشاء طرق عرض مجسدة بسهولة تجمع وتنسخ البيانات من مصادر بيانات مختلفة دون الحاجة إلى كتابة أي كود احتكاري.
  • التعلم الآلي المدمج: يأتي الغراء مع ميزة تعلم الآلة المضمنة تسمى “FindMatches”. إنه يزيل تكرار السجلات التي ليست نسخًا مثالية لبعضها البعض.
  • نقاط نهاية المطور: إذا كنت ترغب في تطوير كود ETL الخاص بك بنشاط ، فإن Glue يوفر نقاط نهاية للمطورين تسمح لك بتعديل الكود الذي ينشئه وتصحيحه واختباره.
  • Glue DataBrew: هي أداة لإعداد البيانات يمكن استخدامها من قبل محللي البيانات وعلماء البيانات لمساعدتهم على تنظيف البيانات وتطبيعها. يستخدم واجهة Glue DataBrew النشطة والمرئية.

كيف يعمل AWS Glue Pricing؟

تتقاضى AWS Glue رسومًا بالساعة ، والتي يتم محاسبتها في الثانية على برامج الزحف (اكتشاف البيانات) ووظائف ETL (معالجة البيانات وتحميلها). يتم فرض رسوم شهرية بسيطة للوصول إلى البيانات الوصفية وتخزينها في كتالوج بيانات AWS Glue.

يبدأ Amazon Glue بسعر 0.44 دولار. يمكنك الاختيار من بين أربع خطط:

  • تتوفر مهام ETL ونقاط نهاية التطوير ومهام ETL الأخرى بسعر $ 0.44
  • جلسات الزاحف التفاعلية متاحة بسعر 0.44 دولار
  • تبدأ وظائف DataBrew من 0.48 دولار
  • تكلفة التخزين والطلبات الشهرية لكتالوج البيانات 1.00 دولار

لا تقدم AWS خطة Glue مجانية. ستكلف كل ساعة 0.44 دولارًا لكل وحدة DPU. في المتوسط ​​، سيكلفك 21 دولارًا في اليوم. يمكن أن تختلف الأسعار حسب المكان الذي تعيش فيه.

خطوات إعداد AWS Glue

يمكن استخدام كتالوج البيانات للبحث عن مجموعات بيانات AWS متعددة والبحث عنها بسرعة دون الحاجة إلى نقل البيانات. بعد فهرسة البيانات ، تصبح متاحة على الفور للاستعلام والبحث باستخدام Amazon Athena و Amazon EMR.

  كيفية حظر المرسلين في تطبيق البريد على iPhone و iPad

المرجع: https://aws.amazon.com/glue/

  • Amazon Redshift و Amazon S3 و Amazon RDS وقواعد البيانات على Amazon EC2 – اكتشف بياناتك وخزن البيانات الوصفية واستخدم كتالوج بيانات AWS Glue لاكتشافها
  • AWS Glue Data Catalog – إدارة البيانات باستخدام كتالوج البيانات الذي يعمل كمستودع مركزي للبيانات الوصفية
  • AWS Glue ETL – اقرأ واكتب البيانات الوصفية في كتالوج البيانات الخاص بك
  • Amazon Athena و Amazon Redshift و Amazon EMR و Amazon ETL – احصل على كتالوج البيانات لـ ETL والتحليلات والمزيد.

كيفية إعداد AWS Glue؟

أولاً ، قم بتسجيل الدخول إلى وحدة الإدارة في AWS وافتح وحدة تحكم IAM. انقر فوق إنشاء دور. ثم بالنسبة لنوع الدور ، ابحث عن الغراء ، وحدد الأذونات.

أختار AWSGlueServiceRole للحصول على أذونات AWS Glue Studio العامة و AWS Glue والسياسة التي تديرها AWS AmazonS3FullAccess للوصول إلى موارد Amazon S3.

أدخل اسم الدور.

انقر فوق إنشاء دور.

قم بإنشاء حاوية Amazon S3.

قم بإنشاء مجلد داخل دلو S3.

اختر الملف المراد تحميله.

أخيرًا ، قم بتحميل الملف في الجرافة.

بعد ذلك ، افتح AWS Glue من وحدة تحكم إدارة AWS وأنشئ قاعدة بيانات.

الآن وبعد أن أصبح لديك قاعدة بيانات في AWS Glue ، قم بإنشاء برنامج تتبع الارتباطات.

في مصدر البيانات ، حدد حاوية S3 التي قمت بإنشائها.

بعد ذلك ، حدد دور IaM لـ AWS Glue الذي أنشأته في البداية.

أخيرًا ، في الإخراج ، حدد gluedb الذي قمت بإنشائه.

راجع جميع الإعدادات وأنشئ الزاحف.

بمجرد إنشاء الزاحف ، حدده وانقر فوق تشغيل. بعد مرور بعض الوقت ، ستصبح الحالة جاهزة.

من خلال تشغيل الزاحف ، ستحصل قاعدة البيانات على جدول بكل البيانات من ملف CSV.

عند النقر فوق عرض البيانات ، سيتم نقلك إلى Amazon Athena (محرر الاستعلام). عند تشغيل الاستعلام ، يمكنك رؤية بيانات الجدول.

يمكنك الآن استخدام برنامج تتبع الارتباطات AWS Glue بنجاح في أي مهمة من وظائف ETL.

ما هو برغي بيانات AWS Glue؟

يسمح AWS Glue DataBrew للمستخدمين بتطبيع البيانات وتنظيفها دون كتابة أي رمز. يمكن لـ DataBrew تقليل الوقت المطلوب لإعداد البيانات للتعلم الآلي والتحليلات بنسبة تصل إلى 80 بالمائة مقارنة بإعداد البيانات المصممة خصيصًا.

هناك أكثر من 250 عملية تحويل للبيانات مسبقة الصنع يمكن استخدامها لأتمتة مهام إعداد البيانات مثل تصفية الحالات الشاذة وتصحيح القيم غير الصالحة وتحويل البيانات إلى تنسيقات قياسية.

تسهل DataBrew على علماء البيانات ومحللي الأعمال والمهندسين التعاون في استخراج الرؤى من البيانات الأولية. DataBrew بدون خادم ، لذلك لا تحتاج إلى إدارة البنية التحتية أو إنشاء مجموعات لاستكشاف وتحويل تيرابايت من البيانات الأولية.

ميزات DataBrew للشركات

تحضير البيانات المرئية

DataBrew هي طريقة مختلفة لعرض البيانات التي يتم عرضها عادةً في قواعد البيانات العمودية كأرقام أبجدية رقمية. تصور DataBrew جميع مصادر البيانات المحملة لمساعدتك على فهم علاقات البيانات والتسلسل الهرمي.

250+ أتمتة تحضير البيانات

من المتوقع أن يتبع علماء البيانات مجموعة متنوعة من مهام سير العمل المعزولة والقابلة للتكرار كجزء من عملهم. صممت AWS تدفقات العمل والعمليات هذه كوحدات نمطية للغة والبيانات. تتضمن هذه المكتبة الإجراءات التي يمكن استخدامها من قبل المستخدمين النهائيين.

  كيفية تعطيل أرشيف قصة الفيسبوك

نسب البيانات

على غرار سجلات التدقيق المستخدمة لتتبع نشاط العميل في شبكة تكنولوجيا المعلومات لشبكة تكنولوجيا المعلومات ، يسمح لك نسب البيانات بتتبع أنشطة تحويل البيانات داخل AWS DataBrew. تتضمن هذه المعلومات مصدر البيانات والتحويلات المطبقة ومخرجات البيانات ، بما في ذلك الموقع المستهدف.

تعيين البيانات

يسمح لك Databrew بالعثور على الحقول المطابقة في مصدري بيانات. بمجرد تحديد الحقول المتطابقة ، يمكن تحميلها في مخطط.

AWS Glue DataBrew: الفوائد

فيما يلي ميزات AWS Glue DataBrew:

  • الحاجز السفلي للدخول لإعداد البيانات
  • إنشاء ملف تعريف البيانات الآلي
  • أتمتة أكثر من 250 عملية تحضير بيانات
  • اقتراحات وصفية ذكية

بدائل لـ AWS Glue

تدفق الهواء

ينتمي Airflow إلى قسم Workflow Manager في مجموعة التكنولوجيا. إنها أداة مفتوحة المصدر تدعم GitHub stars و GitHub forks وميزات أخرى. يسمح لك تدفق الهواء بإنشاء تدفقات عمل باستخدام المخططات الحلقية الموجهة (DAGs). ينفذ برنامج جدولة تدفق الهواء مهامك باستخدام مجموعة من العمال واتباع التبعيات المحددة.

ماتليون

تم تصميم Matillion ETL ، وهي أداة ETL / ELT ، بشكل صريح لمنصات قواعد البيانات السحابية مثل Amazon Redshift و Google BigQuery. إنها واجهة مستخدم حديثة تعتمد على المستعرض مع إمكانات ETL / ELT القوية القابلة للضغط. يمكنك أن تكون جاهزًا للعمل في غضون دقائق من خلال إعداد سريع.

غرزة

Stitch هي خدمة ETL مفتوحة المصدر تربط مصادر بيانات متعددة وتنسخ البيانات إلى الوجهات المفضلة. إنه سهل الاستخدام للغاية ، حيث لا تحتاج إلى أي معرفة بالترميز لنقل البيانات بين المصادر والوجهات في Stitch. إنه سهل الاستخدام ، ويحتوي على واجهة مستخدم رسومية سهلة الاستخدام وسريع.

لا تسمح لك Stitch باختيار لوحة تحكم مسبقة الصنع ، على عكس أدوات ETL الأخرى. بدلاً من ذلك ، يجب عليك دمج بياناتك في مستودعات البيانات المفتوحة التي تحددها كوجهة. قد يكون من الصعب التنقل في قوائم الجرد.

التريكس

Alteryx هي عبارة عن منصة أتمتة للتحليلات تساعد في إعداد جمع البيانات ومزجها. يمكن استخدام هذه البيانات لتسريع العمليات وتقديم نظرة ثاقبة للأعمال. نظرًا لأنها أداة سحب وإفلات ، فلن تحتاج إلى أي معرفة برمجية. Alteryx هو مكان رائع للحصول على المشورة والإجابات من المتخصصين في هذا المجال.

استنتاج

لذلك ، كان هذا كل شيء عن AWS Glue ، وهو حل قائم على السحابة يسمح لك بالعمل مع خطوط أنابيب ETL. باختصار ، تتكون عملية تفاعل مستخدم AWS Glue من ثلاث مراحل. لإنشاء كتالوج بيانات ، عليك أولاً استخدام برامج تتبع ارتباطات البيانات. بعد ذلك ، تقوم بإنشاء كود ETL المطلوب بواسطة خط أنابيب بيانات AWS. أخيرًا ، يتم بعد ذلك إنشاء جدول ETL. آمل أن تكون هذه المدونة قد أعطتك نظرة عامة جيدة عن Amazon Glue.

يمكنك أيضًا استكشاف أفضل النصائح لتأمين تخزين AWS S3.