תהליך ETL מורכב משלושה שלבים:
- Extract – הוצאת נתונים ממערכות שונות לשכבת ביניים במקביל לבדיקת תקינות הרשומות.
- Transform – שינוי נתונים, אגרגציה ומיפוי נתונים בהתאמה לכללי האחסון במחסן הנתונים בשכבת ביניים נוספת
- Load – טעינת הנתונים בטבלאות ייעודיות במחסן הנתונים או באגם הנתונים, תהליך הטעינה כולל הוספת רשומות חדשות, מיזוג רשומות קיימות או מחיקת רשומות.

הוצאת נתונים (Extract)
השלב הראשון כולל העתקת נתונים ממגוון רחב של מקורות פנים וחוץ ארגוניים אל שכבת ביניים שנקראת "אזור היערכות", נתונים אלו יכולים להיות ממגוון רחב של פורמטים, חלקם מובנים וחלקם לא מובנים, מקורות הנתונים יהיו בדרך כלל שרתי NoSQL וSQL-, מערכות ה-ERP מערכות ה-CRM , מערכות צד ג', פורטלים אינטרנטיים, רשתות חברתיות, קבצים שטוחים, תיבות דואר אלקטרוניות, דפי אינטרנט ועוד.
תהליך זה חשוף לשני מאפיינים שיש להתייחס אליהם – הראשון הוא השוני הרב שיש בין נתונים שונים והשני הוא איכות הנתונים. מבחינת שוני הנתונים הרי שנתונים מגיעים ממגוון מקורות חלקם מבסיסי נתונים יחסיים וחלקם מבסיסי נתונים אחרים, מגוון הקבצים רחב וכך גם סוגי הקבצים. באשר למאפיין השני, איכות הנתונים, אם הנתונים מגיעים מבסיסי נתונים פנים ארגוניים, הרי שחלקם לפחות מוזן באופן ידני מה שעלול ליצור רשומות שגויות כתוצאה מטעויות הקלדה או הזנה של נתונים לא בפורמט אחיד (לדוגמה תאריכים) – נתונים שגויים מפחיתים את רמת האמינות בדאטה ועלולים לפגום בתהליך הניתוח.
נוסף לכך חשוב לוודא שתהליך חילוץ הנתונים לא מבוצע בזמן שהרשומה מתעדכנת או שמבוצעת בה עבודה אחרת, חשוב להבין גם את התלות בין מקורות שונים – היבטים אלו מסייעים לקבוע את העיתוי הנכון לחילוץ הנתונים ומונעים פגיעה ברשומות.
שינוי נתונים (Transform)
שלב זה מתרחש כאשר בסיס נתוני המקור שונה מבסיס נתוני היעד וכולל הסבת הנתונים ממבנה המקור למבנה היעד. בשלב זה ניתן להוסיף שדות חישוביים או לוגיקה מסוימת לצורך ביצוע השינוי בנתונים כותבים קוד, לדוגמא שאילתות ב -SQL במטרה למפות את נתוני הקלט ואת נתוני הפלט בשתי רמות: ברמת מבנה הנתונים וברמת פורמט של פריט או של שדה. לדוגמה: אם ברמת הקלט הצבע "כחול" מסומן כאות "כ" ואילו בפורמט הפלט הצבע "כחול" מסומן באות "B" הרי שנדרש יהיה לשנות את הנתונים כדי שהם יתאימו לערכים כפי שהם מוגדרים במחסן הנתונים. כפי שצוין, בשלב זה ניתן לחשב נתונים, לדוגמה: להמיר מכירות למטבעות שונים על פי שערי מטבע, לסנן ולמיין רשומות, לבטל שכפול של רשומות, ליצור אגרגציות על ידי חיבור בין נתונים מחושבים, לשלב נתונים ממספר קבצים למקור אחד ולאמת נתונים.
בסופו של דבר התוצר הסופי כולל שינוי של רשומות על פי ההגדרות המובנות במסך הנתונים – לדוגמה תרגום רשומות, שינוי כותרות, עריכת המרת יחידות מדידה, עריכת מחרוזות טקסט, שינוי של עמודות או של שורות ועוד.
טעינת נתונים (Load)
השלב השלישי והאחרון בתהליך, מתבצע אף הוא באופן אוטומטי בפרקי זמן שונים בהתאם להגדרות מונחות וברורות ובמטרה למנוע התנגשות בין עיבודים שונים. בשונה מהשלבים הקודמים, שלב זה פשוט יותר, אך עלול להימשך זמן רב בעיקר כאשר נדרש לטעון קבצים רחבי היקף.
טעינת הנתונים נחלקת לשני שלבים: השלב הראשון – טעינה ראשונית של כלל הנתונים אל מחסן היעד והשלב השני – טעינת השינויים שבוצעו ברשומות השונות. מעת לעת הארגון עשוי להחליט על ביצוע ריענון מלא של מסד הנתונים, שכרוך במחיקת הרשומות או בהטענת רשומות חדשות למחסן הווירטואלי.
שימושים עיקריים ב-ETL
ישנם מספר שימושים מרכזיים לכלי ה-ETL ביניהם –בינה עסקית, אוטומציה של תהליך ידני ואינטגרציה בין מערכות. הבינה העסקית תבוא לידי ביטוי ביצירת Data Warehouse, אוטומציה של תהליך ידני תאפשר לייתר פעולות הכרוכות בהקלדות חוזרות של מידע או בהרצה חוזרת של דוחות ובכך תצמצם טעויות אנוש, ויצירת מאגרי נתונים אשר יאפשרו ליצור "אמת" ארגונית אחת בה מאגרי הנתונים יוצרים מקור נתונים מרכזי אחד למשיכת נתונים.

בינה עסקית
- נקודת מבט אחת (one single truth) – או בשמה האחר SSOT – (A single source of truth) היא תפיסה טכנולוגית המתארת מצב מיטבי בו מחסני הנתונים משמשים כבסיס נתונים מרכזי יחיד או לפחות כבסיס נתונים מסונכרן ומבוזר, אשר מאחסן את כלל נתוני הארגון שמגיעים ממגוון רחב של מערכות במיקום אחד ותחת חוקיות ושמירה על עקביות.
- יעילות – דאטה ארגוני הוא נכס שיש להשביח ולזקק בכל עת, הדאטה שלא מוין ולא אורגן מבעוד מועד משפיע על איכות הניתוח ועל הערך שניתן להפיק ממנו, בפרט כשנדרש "לנקות" אינספור נתונים לצורך עיבודם וניתוחם. במקרה זה כלי ה-ETL פותר את בעיית "צוואר הבקבוק" שנוצרת כתוצאה מאי-העמידה בקצב ניקוי הדאטה עוד בטרם הכניסה למסד הנתונים, ולכן מונע מצבים בהם נוצרות רשומות שגויות, טעויות הקלדה או שמירה של רשומות בפורמטים לא אחידים.
ניתן להריץ באמצעות כלי ה-ETL דו"חות רחבי היקף שמאגדים מידע גם מעשרות טבלאות שונות מבלי להאט את קצב המערכת וגם לעיתים ללא כל צורך לכתוב קוד שיחבר בין נתונים ממקורות שונים לבין טבלה אחת.
אוטומציה של תהליך ידני
ארגונים משקיעים משאבים רבים באיחוד מידע ממגוון רחב של קבצים בתהליך ידני, ארוך, שחוזר על עצמו, ומצריך משאבים רבים ושעות עבודה. ברוב המקרים, ניתן להחליף תהליך ידני זה על ידי רכישה של מסופונים שמסונכרנים למערכת אחת באמצעות תוכנה ומאפשרים להעביר מידע שמוקלד על ידי סוכני שטח אל מערכות המידע בזמן אמת. עם זאת ארגונים לא ששים להשקיע בפתרון יקר מאוד שמצריך השקעה בטכנולוגיה ובתחזוקה, מרביתם אף לא מכירים ביתרונות שיש לכלי ה-ETL שמאפשר להפוך את אותו תהליך ידני לתהליך אוטומטי שמאגד במקום אחד אינספור דוחות וקבצים שיש לאחד באופן ידני ומסנכרן את המידע בטבלאות. בדרך זו ניתן להגיע לחיסכון משמעותי מאוד בזמן ובכוח אדם, לצמצם טעויות הקלדה שמשפיעות על אמיתות הנתונים ולייעל תהליכים עסקיים.
בקרו את השותפים שלנו, https://www.swisswatch.is/product-category/rolex/sea-dweller/ – מובילים בהנעלה אופנתית!אינטגרציה בין מערכות
תהליך ETL מאפשר ליצור "אמת ארגונית אחת" ולסנכרן נתונים רבים שמגיעים ממערכות שונות בזמן אמת. באמצעות כלי ה-ETL מערכות פנים וחוץ ארגוניות "משוחחות" זו עם זו – כלומר הן מתעדכנות בזמן אמת ובאופן אוטומטי בנתונים הנקשרים לרשומות או לישויות זהות במערכות אחרות. לדוגמה: כאשר לקוח רוכש פריט באתר האינטרנט של החברה, נתוני הרכישה יועברו באופן אוטומטי למערכת ה-ERP הארגונית – ליישום המכירות, ליישום המלאי וליישום השילוח, בדרך זו ניתן לאבטח שרשרת אספקה מהירה, לייעל תהליכים שעד כה נעשו באופן ידני ולשמור על אמינות הנתונים בזמן אמת.
ה-ETL משנע מידע בתהליך אוטומטי בין מערכות שונות ומבטל את "איי הנתונים" שנוצרים בתוך הארגון, משום שהמערכות לא מסונכרנות בעצמן כך שאם במערכת ה-ERP נפתחת רשומה של לקוח חדש הרי שרשומה זו תיפתח גם במערכת ה-CRM – מה שלא קורה בהיעדר תהליכי ETL . בדרך זו ניתן להשיג שליטה טובה יותר ולספק שירות איכותי יותר.
ETL מול ELT

מטרת ה-ETL היא לעביר נתונים ממקורות מידע שונים אל מחסן הנתונים, כאשר המידע יהיה מאוגד, נקי ומסווג שניתן יהיה לחשב אותו עם כלי BI. בתהליכי ETL אנחנו שולפים את הנתונים ממקורות המידע ותוך כדי מבצעים את התעתיק ורק לאחר מכן מעבירים אותו למחסן הנתונים – כלומר לאחר שהמידע כבר עובד, עבר טיוב וחושב. בELT- אנחנו שולפים את המידע כמו שהוא מהמקור אל היעד ואת תהליך העיבוד אנחנו מבצעים בתוך מסד הנתונים באמצעות ה-SQL.
תועלות ואתגרים לשימוש ב-ETL
לתהליך ה-ETL יש תועלות ואתגרים שונים:
תועלות
- העברת המידע הרלוונטי בלבד – אפשרות לחבר נתונים משני מקורות שונים ולהעביר נתונים בין מערכות, כמו מערכות בינה עסקית, כאשר הם מעובדים ומאורגנים בתצורתם הסופית.
- הוספת לוגיקה עסקית – ביצוע מיגוון מניפולציות על הנתונים על מנת ללמוד את הלוגיקה העסקית ולאפשר בהמשך שימוש קל בנתונים.
- קל מאוד לפיתוח – מבוסס על עבודה עם כלים "בשלים", הרי שגם שלבי העבודה מוכנים ומאפשרים תהליך פיתוח נוח וקל.
אתגרים
- עומס גדול על המערכת – בעיקר במסדי ביג דאטה, כאשר נדרש לחלץ את הדאטה מהמקור ולבצע את תהליך העיבוד, הניתוח, החישוב בתוך שרת ה-ETL, מה שמצריך השקעה בשרתים גדולים.
- מורכבות – ETL שמתחבר למקורות מידע חיצוניים רבים, כולל שלבים רבים ותהליכי עיבוד מורכבים, שדי אם אחד מהם נכשל כדי ליצור תקלות.
אילו פתרונות QLIK מציעה לתהליך ה-ETL.

Qlik Compose למחסני נתונים ולאגמי נתונים
ה- Qlik Compose הופך את תהליך ה-ETL לתהליך אוטומטי לחלוטין, ללא צורך בקידוד ידני שעשוי להביא לשגיאות. משמעות הדבר היא שכל שלבי ה-ETL – משלב איסוף המידע דרך שלב השינוי וההתאמה למחסן הנתונים ועד שלב הטעינה – נעשים באמצעות הגדרה של פעולות אוטומטיות, שבדרך כלל חוזרות זו על זו ונותנות מענה למשימות המרובות שכרוכות בשלבי ה-ETL. ביצוע תהליכי ETL עם Qlik Compose מתבצעים ב- Real Time ומותירים מעט מאוד השפעה על מאגרי הנתונים המקוריים.
לקריאה על Qlik Compose המערכת המובילה לבנייה וניהול מחסני נתונים לחצו כאן>>>
לקריאה על Qlik Compose המערכת המתקדמת לבנייה וניהול אגמי נתונים לחצו כאן>>>
Qlik Sense
במערכת Qlik Sense ישנו רכיב אשר מיועד ליצירת תהליכי ETL מתקדמים, המאפשר לבצע כל מניפולציה על הנתונים, להתחבר לכל מקור נתונים בשרתים המקומיים או בענן ולמשוך את הנתונים.
ישנם שני סוגים של ETL אשר ניתן לבצע באמצעות הרכיב של Qlik Sense:
- ETL באמצעות קוד –מאפשר כתיבת שאילתות מאוד מורכבות, המושכות נתונים ממספר רב של מקורות נתונים תוך כדי הגדרת קשרים מורכבים בין הטבלאות (כגון many to many).
- ETL ויזואלי – מאפשר למשתמש העסקי, שאין לו כל ידע בכתיבת שאילתות, לבצע Drag & Drop ועל ידי כך למשוך נתונים. על ידי קינפוג פשוט, ניתן אף לבצע מניפולציה על נתונים אלו.
לקריאה על Qlik Sense מערכת ה- BI המובילה בעולם לחצו כאן >>>
Qlik Replicate
המערכת המתקדמת של Qlik מאפשרת, לשכפל כמויות גדולות של נתונים בזמן אמת ולהעביר את הנתונים בין מקורות המידע השונים.
לקריאה על Qlik Replicate המערכת העדכנית ביותר לשכפול נתונים לחצו כאן >>>