גיל רוזן, סמנכ"ל פתרונות דאטה, matrixDnA
כנס דאטהבריקס הגלובלי Data + AI שהתקיים לפני שבועיים בסן פרנסיסקו כלל שורה ארוכה של חידושים והכרזות. בניגוד לשנה שעברה, השנה סנופלייק ודאטהבריקס ערכו את הכנסים שלהן שבוע אחר שבוע באותו אולם כנסים (סנופלייק ראשונה ושבוע לאחר מכן דאטהבריקס), כך שכל אנשי הדאטה הגיעו לסן פרנסיסקו לשבועיים של הכרזות, דוכנים וסשנים מקצועיים למכביר.
קצת מספרים מהכנס:
- 16 אלף מבקרים
- 600 סשנים מקצועיים
- נציגים מ- 140 מדינות
- 200 צוותי דאטה שהציגו סיפורי לקוח שונים
- אחד מנכ"ל Nvidia במעיל עור על הבמה
הכנס כלל מגוון רחב של עדכונים בשלל נושאים וקצרה היריעה מכדי לכסות את כולם, כל הסשנים הוקלטו וזמינים לצפייה לקהל הרחב באתר הכנס. ננסה לתת לכם טעימה קטנה מהכנס ונסקור בקצרה את העדכונים המשמעותיים ביותר בראייתנו:
- משנים את חוקי הפורמט
בתחילת יוני דאטהבריקס הכריזה על הרכישה של Tabular שמייסדיה המציאו את פורמט Iceberg. באמצעות הרכישה של טבולאר, דאטהבריקס רוצה לתת כיסוי לשני הפורמטים הנפוצים בקוד פתוח לניהול דאטה: Iceberg ו- Delta Lake. עם הרכישה, דאטהבריקס מכריזה על Delta Lake UniForm, שהיא למעשה תמיכה מלאה ושקופה בשני הפורמטים (כמו גם ב- Apache Hudi) כך שצוותי דאטה יכולים לבחור את הפורמט המועדף עליהם ללא הגבלה וללא צורך בהמרות.
- Serverless Everything
עד לאחרונה השירות המרכזי שהיה זמין בתצורת serverless בדאטהבריקס היה SQL Warehouse, למעשה מדובר בשרתים "חמים" שדאטהבריקס מנהלת וכאשר לקוח בוחר לעשות בהם שימוש הם מוקצים לטובתו, כאשר היתרון הוא שהשרת זמין באופן מידי. בכנס הכריזו למעשה שכל השירותים השונים בדאטהבריקס זמינים מעתה והלאה בתצורת serverless, כך שזמן האתחול והעליה של השירות במידה שבחרתם לעבוד בתצורה זו מתקצר משמעותית לשניות בודדות.
- תארוז לי כמה מודלים במבצע
ביולי 2023 דאטהבריקס רכשה את MosaicML שמתמחה באימון מודלי LLM. מאז הרכישה החבר'ה בדאטהבריקס עובדים במרץ על הטמעת היכולות של מוזאיק בכל רחבי הפלטפורמה כאשר בכנס הוצגה תפיסת הפעלה המכונה Compound AI Systems. מה זה בעצם אומר? כולנו מנסים בימים אלו למנף ולהטמיע יכולות GenAI בתהליכי העבודה השונים, לפי דאטהבריקס הדרך הנכונה לעשות זאת הינה לחבר מספר מודלים שונים לכדי flow אחוד שמביא מגוון יכולות לפתרון אתגרים עסקיים. כדי להמחיש את הדברים הוצג בכנס דמו של תרחיש עסקי המייצר עבור צוות השיווק קמפיין אינסטגרם מותאם אישית על בסיס רצף של מודלי GenAI וחיבור לפונקציות ומקורות נתונים משולבים.
מומלץ בחום לראות את ההקלטה של הדמו הזה, קודם כל הבחורה על הבמה פותרת באג בהרצה בזמן אמת מול אולם מלא בצופים ועל כך שאפו, אבל מעבר לזה בראייתנו יש כאן לא פחות ממהפכה בתפיסת ההפעלה של מודלי LLM באופן שבו ניתן להפוך תהליכי עבודה מסורתיים מקצה לקצה ולהציג ROI אמיתי לארגון (ולא רק באז).
חידושים נוספים מבית מוזאיק שהוצגו בכנס:
- יכולת מובנה לעשות Fine Tune למודל מסחרי או Open Source בתוך דאטהבריקס באמצעות אימון על מידע פנימי של הארגון.
- Shutterstock ImageAI – בורסת התמונות הגדולה בעולם חוברת לדאטהבריקס ומנגישה מודל text-to-image. המודל מייצר תמונות מותאמות אישית לצרכי המשתמשים העסקיים.
- Mosaic AI Agent Framework – יכולת מובנה לארוז מידע ארגוני ב- RAG ולהגיש אותו למודלי LLM בצורה מנוהלת כולל ניהול הרשאות באמצעות Unity Catalog
- Mosaic AI Tool Catalog – סט כלים מובנה לשימוש בתוך דאטהבריקס למשימות LLM נפוצות. בדרך זו ניתן לארוז דאטה, פונקציות, מודלים ועוד לשימוש חוזר והרכבה של "פאזלים" כחלק מתפיסת ה- Compound Systems.
- בל נשכח את ה- DWH
גם בתחום ה- DWH דאטהבריקס משחררת עדכונים משמעותיים, מתוך הבנה שמדובר ביכולת ליבה חיונית לארגונים אשר לרוב גם עולה לא מעט כסף. במאמץ להקטין את המורכבות של תהליכי מיגרציה, דאטהבריקס משלימה סט רחב של יכולות פונקציונליות ולמעשה מספקת תמיכה בכל הטוב שאנחנו רגילים אליו ממחסני נתונים מסורתיים, מישהו אמר materialized views? קיבלתם, SQL ו- Python UDF? יש, הבנתם את הרעיון..
בנוסף, דאטהבריקס רותמת את היכולת של Compound Systems לטובת הפלטפורמה הפנימית שלה ולמעשה מריצה מאחורי הקלעים מנועי אופטימיזציה מבוססי AI. איך זה בא לידי ביטוי בפועל? הנה כמה דוגמאות:
- אין צורך להגדיר partition או clustering על הטבלה, דאטהבריקס לומדת לבד את דפוסי השימוש על בסיס השאילתות ומייצרת בצורה אוטומטית Clustering, וכנ"ל לגבי אינדקסים.
- דאטהבריקס טוענת שבאמצעות שילוב של מנגנוני AI לאופטימיזציה הם הצליחו להשיג שיפור של 73% בזמני הרצה של שאילתות ארגוניות בשנתיים החולפות.
עדכונים נוספים בגזרת ה- DWH כוללים סיוע מובנה של LLM בכתיבת שאילתות, יכולת לקרוא לפונקציות AI בקוד SQL וכן להריץ שליפות מידע מדאטהבייס וקטורי.
- שים לי קצת AI על ה-BI
דאטהבריקס לא מזניחה את האנליסטים וצרכני המידע ומשיקה שירות חדש לגמרי בשם AI/BI. למעשה מדובר בשילוב של שתי יכולות, האחת כוללת יצירה on-the-fly של דשבורדים מותאמים לצרכי המשתמש על פי בקשות בטקסט חופשי. השנייה מכונה Genie והינה למעשה prompt המאפשר לשאול שאלות על הדאטה בצורה ישירה או מתוך דשבורדים.
לפי דאטהבריקס, אחד האתגרים של ארגונים הינו עולם המונחים העסקי שלהם שאינו גנרי ולכן LLM מתקשים לתת תשובות אמינות בסיטואציות כאלו, עם ג'יני גם הבעיה הזו מקבלת מענה מפני שאפשר ללמד את המודל מה ההגדרה לדוג' של "אחוז נטישה" או כל מונח עסקי אחר ומהנקודה הזו ואילך הוא ידע לחשב ולהציג את הנתון הזה במענה לשאלות אנליסטים. איך ג'יני עושה את כל זה? שוב פעם השילוב של Compound AI כרכיב ליבה בתוך הפלטפורמה, הפעם כדי לסייע לג'יני להכיר את כל נכסי הדאטה השונים שלכם במטרה לתת תשובות מדויקות יותר.
- קטלוג חוצה גבולות
אחד התחומים החמים בכנס היה כל תחום ה- governance, וקטלוג נתונים כחלק ממנו כמובן. דאטהבריקס עשתה הרבה השקעות בשנה האחרונה ביוניטי, הקטלוג המובנה שלה כחלק מהפלטפורמה, והיא ממשיכה את הקו הזה עם מספר הכרזות מעניינות במטרה להפוך את יוניטי לקטלוג המרכזי של ארגונים באופן שחוצה את כל תשתיות הארגון.
ראשית, היא פותחת ומנגישה את יוניטי כרכיב קוד פתוח, מה שאומר שגם לקוחות שאינם עושים כיום שימוש בדאטהבריקס יכולים לעשות שימוש ביוניטי. מעבר לכך, זהו פתח כמובן לבנות יכולות אינטגרציה וקונקטורים ליוניטי של טכנולוגיות נוספות ובדרך זו להרחיב את גבולות הקטלוג אל מעבר לדאטהבריקס בלבד. דאטהבריקס לא מסתפקת בכך ולמעשה נותנת למשתמשים חלק מהקונקטורים הללו כבר היום באמצעות יכולת שנקראת Datalake Federation, זה אומר שאתם יכולים לחבר כבר היום מערכות נוספות ליוניטי כגון רדשיפט, Power BI ורחמנא ליצלן – גם סנופלייק ?
עדכון מעניין נוסף הוא האפשרות להתחיל ולנהל בקטלוג את ה- KPIs העסקיים. דאטהבריקס מכריזה על אובייקט בשם Metrics ועל אינטגרציה עם מערכות צד ג' נפוצות לניהול מטריקות עסקיות. לכך נלוו עוד הכרזות על יכולת חדשות של Data Sharing ו- Data Clean Rooms שעליהם נרחיב בפוסט נפרד.
- דאטה זורם בכפות ידיך
את אחת ההכרות הכי חשובות שמרה דאטהבריקס לסוף הכנס. דאטהבריקס מכריזה על מוצר חדש בשם LakeFlow, כלי ETL מנוהל בתוך הפלטפורמה החל משלב ה- Ingestion, דרך היישום של תהליכי טרנספורמציה ולוגיקה עסקית, וכלה ביכולת לתזמן תלויות וכו' של התהליכים הנ"ל. היכולת הזו מבוססת על רכישה שדאטהבריקס עשתה בעבר של חברת Arcion וכוללת בצורה מובנית קונקטורים למקורות הנפוצים, יכולת CDC, ממשק גרפי לטרנספורמציות ועוד. ההכרזה הזו קוראת תיגר על האקו-סיסטם של השותפים של דאטהבריקס באזורים הנ"ל (כגון Fivetran, DBT, Airflow) ויהיה מעניין לראות אם לקוחות בוחרים לשים את כל הביצים בסל אחד ולהעביר את הפיתוחים באזורים הללו לדאטהבריקס.
לסיכום: דאטהבריקס ממשיכה לבסס את מעמדה כתשתית דאטה ארגונית אחודה המספקת מענה לכל נכסי הדאטה, כל תהליכי העיבוד וה- workloads, וכל בעלי התפקידים המעורבים בתהליכי הדאטה השונים בארגון. מבחינה זו הכנס מהווה הפגנת יכולות נוספת בקרבות השליטה אל מול סנופלייק ואיתות ברור לפאבריק של מיקרוסופט שהפער ביחס אליה ביכולות נותר משמעותי ואף גדל. דבר אחד בטוח: הולך להיות מעניין בשנים הקרובות..













