תפריט נגישות

כריית נתונים לעסקים

דוחות כריית נתונים (data mining) מסוגלים למצוא בנתונים דפוסים מעניינים שלא ניתן לגלות אותם באמצעות דוחות "רגילים"

כריית נתונים לעסקים

דוחות כריית נתונים (data mining) מסוגלים למצוא בנתונים דפוסים מעניינים שלא ניתן לגלות אותם באמצעות דוחות "רגילים". דוחות "רגילים" הם דוחות שמופקים ע"י מחולל דוחות, כמו המחולל שנמצא בתוכנות כגון Access, Crystal Reports וכד'. דוחות אלו מופקים ע"י חיתוך הנתונים, ע"י מיון וע"י הפעלה של פעולות אריתמטיות (כגון: סיכום). דוחות אלו עונים על צרכים רבים של המשתמשים בתוכנה, אולם לא ניתן להפיק בדרך זו דוחות שעונים לשאלות הבאות:  מה מאפיין נטישת לקוחות? מה מאפיין פריטים פגומים? מה מאפיין לקוחות שרוכשים מוצר מסוים? וכד'. כדי להשיב לשאלה אלו יש צורך להפיק דוחות כריית נתונים.

אגב, המונח כריית נתונים בא לציין את הדמיון בין כריית מחצבים לבין מציאת דפוסים מעניינים בנתונים. כשם שיש לחפור באדמה על מנת לגלות נחילי זהב, כך יש "לחפור" בנתונים על מנת לגלות תופעות מעניינות.

קיימות בעולם מספר שיטות להפקה של דוחות כריית נתונים (ולכל שיטה שם "מעניין") – רשתות נוירונים, עצי החלטה, מודלים אבולוציונים ועוד. בשורות הבאות נציג שיטה שמגלה את כל החוקים מסוג "אם-אז", ו- "אם ורק אם".

להלן נתאר שני דוחות: דוח אחד מגלה מה מאפיין לקוחות שהמכירות שלהם ירדו במידה הרבה ביותר (לקוחות שנטשו), ומי מהלקוחות הקיימים עלול להצטרף לקבוצה זו של לקוחות שנטשו, ודוח שני מגלה מה מאפיין לקוחות שמאחרים בתשלום במידה הרבה ביותר, ומי מהלקוחות הקיימים עלול להצטרף לקבוצה זו.

בניית טבלת הנתונים

כל תוכנות כריית נתונים מנתחות טבלת נתונים. לכן, בשלב הראשון יש לבנות טבלת נתונים. בדוגמה הנוכחית בטבלה זו כל שורה מציינת לקוח אחר, ואילו השדות הם: מפתח לקוח, שם לקוח, עיר, סוכן, ועוד שדות המתארים את סל הקניות של הלקוח.

הערה: לא ניתן להבחין ע"פ נתוני הקניות בין לקוחות שהקטינו את הקניות משום שהם נטשו ועברו למתחרה (לקוחות לא נאמנים) לבין לקוחות שהקטינו את הקניות משום שהפעילות שלהם קטנה.

% קבוצה עליונה: ביו אם מפיקים את דוח לקוחות שמאחרים בתשלום, ובין אם מפיקים את דוח נאמנות לקוחות, בשני הדוחות מחפשים חוקים שמאפיינים קבוצה של לקוחות (קבוצת הלקוחות שמאחרים בתשלום במידה הרבה ביותר או קבוצת הלקוחות שהקניות שלהם ירדו במידה הרבה ביותר). יש לקבוע את גודלה של הקבוצה. לדוגמה, אם רושמים בסעיף זה 20%, אזי הקבוצה תכלול את 20% מהלקוחות שמאחרים בתשלום במידה הרבה ביותר, או 20% מהלקוחות שהקניות שלהם ירדו במידה הרבה ביותר.

קבוצות פריטים: בטבלה מסווגים את הפריטים לקבוצות. לגבי כל קבוצת פריטים התוכנה מחשבת את שני הנתונים הבאים:

  • חלקה של הקבוצה (ב- %) מתוך סך הקניות. לדוגמה, אם חלקה של הקבוצה הוא 20%, אזי סך הקניות של הפריטים בקבוצה הנידונה מהווה 20% מסך כל הקניות של הלקוח.
  • % השינוי של הקניות בשלושה החודשים האחרונים יחסית לשלושת החודשים הקודמים.

המשתנה התלוי

כאמור התוכנה מפיקה שני ניתוחים. ניתוח אחד מגלה מה מאפיין לקוחות שהמכירות שלהם ירדו במידה הרבה ביותר (לקוחות שנטשו) ומי מהלקוחות הקיימים עלול להצטרף לקבוצה זו של לקוחות שנטשו, וניתוח שני מגלה מה מאפיין לקוחות שמאחרים בתשלום במידה הרבה ביותר, ומי מהלקוחות הקיימים עלול להצטרף לקבוצה זו. בכל ניתוח כזה התוכנה מנסה ללמוד מדוגמאות, ניתוח אחד לומד מדוגמאות של לקוחות שמאחרים בתשלום במידה הרבה ביותר, וניתוח שני לומד מדוגמאות של לקוחות שהקניות שלהן ירדו במידה הרבה ביותר.

כדי לקבוע מיהם הלקוחות שמאחרים בתשלום במידה הרבה ביותר, התוכנה מחשבת עבור כל לקוח את הנתון הבא:

חוב נוכחי

------------------------------------------------------------

מכירות ממוצעות בחודש (לפי 6 החודשים האחרונים)

ככל שהנתון שלעיל גבוה יותר, הפיגור בתשלומים גבוה יותר. התוכנה ממיינת את הלקוחות לפי נתון זה ובוחרת את הקבוצה העליונה. גודל הקבוצה נקבע כאמור לעיל.

באופן דומה התוכנה קובעת את שדה המשנה התלוי עבור דוח נטישת לקוחות. התוכנה מחשבת עבור כל לקוח את הנתון הבא:

מכירות בשלושת החודשים אחרונים  -  מכירות בשלושת החודשים הקודמים

-----------------------------------------------------------------------------------

ערך מוחלט של המכירות בששת החודשים האחרונים

נתון זה מייצג את שיעור השינוי במכירות. ושוב, בכל הלקוחות, שהקניות שלהם ירדו במידה הרבה ביותר, התוכנה רושמת את הערך T; בלקוחות האחרים נרשם הערך F. הדוח המודפס מפרט את % הירידה במכירות של כל לקוח.

דוחות

התוכנה מפיקה את הדוחות הבאים:

דוחות איחור בתשלומים:

לקוחות לפי איחור בתשלומים: דוח זה מפרט את כל הלקוחות כשהם מסודרים לפי המדד שהוצג לעיל של מידת האיחור בתשלום. בשורות של הלקוחות הראשונים ברשימה מופיע הסימן T. לקוחות אלה מהווים דוגמה של לקוח שמאחר בתשלום במידה רבה. בשורות של הלקוחות האחרים מופיע הסימן F. לקוחות אלה אינם מהווים דוגמה ללקוח שמאחר בתשלום במידה רבה.

איחור בתשלומים לקוחות רגילים: דוח זה מפרט את כל הלקוחות שבדוח הקודם סומנו כ- F (לקוחות שאינם מאחרים בתשלום במידה הרבה ביותר). בניגוד לדוח הקודם, בדוח זה הלקוחות מסודרים לפי מפתח החשבון.

לקוחות שמאחרים בתשלום במידה הרבה ביותר: דוח זה מפרט את כל הלקוחות שבדוח הראשון סומנו כ- T (לקוחות שמאחרים בתשלום במידה הרבה ביותר). בניגוד לדוח הראשון, בדוח זה הלקוחות מסודרים לפי מפתח החשבון.

לקוחות בסיכון: דוח זה מפרט את הלקוחות אשר עונים על שני התנאים הבאים יחד: (1) הסימון שלהם הוא F (כלומר, הם אינם שייכים לקבוצת הלקוחות שמאחרים בתשלום במידה הרבה ביותר); (2) לפי החוקים שהתגלו הם היו צריכים להיות ברשימת הלקוחות שמאחרים בתשלום במידה הרבה ביותר. אלה הם לקוחות בסיכון. קיימת סכנה שהם יעברו לקבוצה של הלקוחות המאחרים בתשלום במידה הרבה ביותר בעתיד הקרוב, ולכן כדאי "להשגיח" עליהם כבר כעת.

דוחות נטישת לקוחות:

דוחות נטישת לקוחות דומים לדוחות איחור בתשלומים:

לקוחות לפי ירידה בקניות: דוח זה מפרט את כל הלקוחות כשהם מסודרים לפי המדד שהוצג לעיל של מידת הנטישה. בשורות של הלקוחות הראשונים ברשימה מופיע הסימן  T. לקוחות אלה מהווים דוגמה של לקוות שירדו בקניות במידה רבה. בשורות של הלקוחות האחרים מופיע הסימן F. לקוחות אלה אינם מהווים דוגמה ללקוחות שנטשו במידה רבה.

ירידת קניות לקוחות רגילים: דוח זה מפרט את כל הלקוחות שבדוח הקודם סומנו כ- F (לקוחות שהקניות שלהם לא ירדו במידה הרבה ביותר). בניגוד לדוח הקודם, בדוח זה הלקוחות מסודרים לפי מפתח החשבון.

לקוחות שהקניות שלהם ירדו במידה הרבה ביותר: דוח זה מפרט את כל הלקוחות שבדוח הראשון סומנו כ- T (לקוחות שהקניות שלהם ירדו במידה הרבה ביותר). בניגוד לדוח הראשון, בדוח זה הלקוחות מסודרים לפי מפתח החשבון.

לקוחות בסיכון: דוח זה מפרט את הלקוחות אשר עונים על שני התנאים הבאים יחד: (1) הסימון שלהם הוא F (כלומר, הם אינם שייכים לקבוצת הלקוחות שנטשו במידה הרבה ביותר); (2) לפי החוקים שהתגלו הם היו צריכים להיות ברשימת הלקוחות שירדו בקניות במידה הרבה ביותר. אלה הם לקוחות בסיכון. קיימת סכנה שהם יעברו לקבוצה של הלקוחות שנוטשים במידה הרבה ביותר בעתיד הקרוב, ולכן כדאי "להשגיח" עליהם כבר כעת.

להלן דוגמה של חוק מסוג "אם-אז" שנתגלה ע"י תוכנת כריית נתונים:

If  SALESPERSON is 4

and SHARE_OF_GROUP_AAA is 0.80 ... 25.40 (average = 11.56 )

Then

BAD_DEBTOR is T

Rule's probability: 0.522

The rule exists in 24 records.

Significance Level:   Error probability <       0.01

התרגום של חוק זה לשפה פשוטה הוא:

אם הלקוח בטיפול סוכן מס' 4,

ואם החלק היחסי של הפריטים בקבוצת AAA מתוך סך הפריטים במכירות ללקוח הוא בין 0.8% לבין 25.4%,

אזי יש הסתברות של 0.522, שהלקוח שייך לקבוצת הלקוחות שמאחרים בתשלום.

ישנם 24 לקוחות שחוק זה חל עליהם.

ההסברות שחוק זה קיים במקרה היא פחות מ- 0.01.

הערה: הערכים בתנאי השני, SHARE_OF_AAA, נקבעים אוטומטית ע"י התוכנה. כיוון שהנתונים בשדה זה ה רציפים, התכונה מחלקת אותם לקטעים, ומחפשת קשרים בין כל קטע לבין המשתנה התלוי. חלוקה זו לקטעים נעשית באמצעות אלגוריתם מיוחד מתוך מטרה שהתוכנה תמצא את החוקים המשמעותיים ביותר.

דוגמה לחוק מסוג "אם ורק אם":

If-and-only-if Rule 1  (out of  2)

 

The following conditions explain when

BAD_DEBTOR is T

 

1) SALESPERSON is 4

    and SHARE_OF_GROUP_AAA is 0.00 ... 9.10 (average = 4.33 )

2) SALESPERSON is 5

    and GROWTH_OF_GROUP_DDD is 41.54 ... 407.49 (average = 108.02 )

 

When at least one of the conditions holds, the probability that

DISLOYAL_CUSTOMERS is T

is 0.860     (148 out of 172 cases)

 

When all the conditions do not hold, the probability that

DISLOYAL_CUSTOMERS is not T

is 0.894     (319 out of 357 cases)

 

 The total number of cases explained by the set of conditions:  467

 The total number of cases in the data: 529

 Success rate:   0.883     (467 / 529)

 The primary probability that:

 BAD_DEBTOR is T is 0.352     (186 out of 529 cases)

 BAD_DEBTOR is not T is 0.648     (343 out of 529 cases)

 Improvement Factor:   3.000            (0.352 / 0.117)

 

התרגום של חוק זה לשפה פשוטה:

שני התנאים הבאים מסבירים מתי לקוח שייך לקבוצת הלקוחות המאחרים בתשלום:

תנאי מס' 1:

הלקוח בטיפול סוכן מספר 4,

וגם החלק היחסי של הפריטים בקבוצת AAA מתוך סך הפריטים במכירות ללקוח הוא בין 0% לבין 9.1%.

תנאי מספר 2:

הלקוח בטיפול סוכן מספר 5,

וגם הגידול במכירות ללקוח של פריטים מקובצה DDD (בשלושת החודשים האחרונים לעומת שלשות החודשים הקודמים) הוא בין 41.54% לבין 407.49%.

אם מתקיים לפחות אחד משני התנאים שלעיל (כלומר מתקיים תנאי מס' 1 ו/או מתקיים תנאי מס' 2), יש הסתברות של 0.86 שהלקוח שייך לקבוצת הלקוחות שמאחרים בתשלום.

אם שני התנאים שלעיל יחד לא מתקיימים (כלומר, לא מתקיים תנאי מס' 1 וגם לא מתקיים תנאי מס' 2), יש הסתברות של 0.894 שהלקוח אינו שייך לקבוצת הלקוחות שמאחרים בתשלום.

החוק מסביר בהצלחה 0.883 מהמקרים (כלומר, אם מסווגים את הלקוחות לקבוצת הלקוחות המאחרים בתשלום, ולמי שלא בקבוצה זו, הסיווג מדויק ב- 88.3% מהמקרים).

בניגוד לחוקי "אם-אז", שכל אחד מהם מציג תנאי מספיק, חוק "אם-ורק-אם" מציג תנאי מספיק והכרחי. (במילים אחרות: חוק מסוג אם-ורק-אם מסביר את כל המקרים (בניגוד לחוק מסוג אם-אז שבדרך כלל מסביר רק קבוצה חלקית של מקרים).

כותב המאמר הנו:

ד"ר אברהם מידן,מנכ"ל חשבשבת

Abraham@wizsoft.com

פרסום באתר