قسمتی از متن ترجمه مقاله دسته بندی مجموعه داده های بانکی بر اساس پلتفورم های داده کاوری
چکیده
فرآیند استخراج قوانین معنادار از داده های بزرگ و پیچیده، داده کاوی نامیده می شود. داده کاوی دارای محبوبیت روز افزون در هر زمینه ای است. واحدهای داده در صنایع مشتری محور همانند بازاریابی، امور مالی و مخابرات ایجاد می شوند. در بین روش های داده کاوی، الگوریتم های دسته بندی در مطالعات انجام شده برای دستیابی به مشتری مورد استفاده قرار می گیرند تا مشتریان بالقوه شرکت در دستیابی به صنعت مربوطه را پیش بینی کنند. در این مطالعه، مجموعه داده های بازاریابی در مجموعه داده های یادگیری ماشین UCI با ایجاد مدل ها با همان الگوریتم های دسته بندی در برنامه های مختلف داده کاوی مورد استفاده قرار گرفته است. معیارهای دقت، صحت و اندازه گیری برای تست عملکرد مدل های دسته بندی مورد استفاده قرار گرفته است. در هنگام ایجاد مدل های دسته بندی، مجموعه داده های تست و آموزش توسط روش بسط یافته به طور تصادفی تفکیک شده است تا عملکرد مجموعه داده ها مورد ارزیابی قرار گیرد. این مجموعه داده ها به مجموعه داده های آموزش تست با نسبت های تفکیک 60 تا 40 درصد، 75 تا 20 درصد و 80 تا 20 درصد تقسیم می شود. برنامه های داده کاوی مورد استفاده برای این فرآیندها شامل R، Knime، RapidMiner و WEKA است. الگوریتم های دسته بندی به طور متداول که در این الگوریتم ها مورد استفاده قرار می گیرند شامل k همسایه نزدیک (k-nn)، Naive Bayes و درخت تصمیم C4.5 است.
کلید واژه ها: داده کاوی، بانکداری، کسب مشتری، برنامه های داده کاوی
Abstract
The process of extracting meaningful rules from big and complex data is called data mining. Data mining has an increasing popularity in every field today. Data units are established in customer-oriented industries such as marketing, finance and telecommunication to work on the customer churn and acquisition, in particular. Among the data mining methods, classification algorithms are used in studies conducted for customer acquisition to predict the potential customers of the company in question in the related industry. In this study, bank marketing data set in UCI Machine Learning Data Set was used by creating models with the same classification algorithms in different data mining programs. Accuracy, precision and f- measure criteria were used to test performances of the classification models. When creating the classification models, the test and training data sets were randomly divided by the holdout method to evaluate the performance of the data set. The data set was divided into training and test data sets with the 60-40%, 75- 25% and 80-20% separation ratios. Data mining programs used for these processes are the R, Knime, RapidMiner and WEKA. And, classification algorithms commonly used in these platforms are the k-nearest neighbor (k-nn), Naive Bayes, and C4.5 decision tree.
Keywords—data mining; banking; customer acquisition; data mining programs.
چکیده
کلمات کلیدی
1. مقدمه
2. مرور کلی
A. داده کاوی
B. الگوریتم های دسته بندی مورد استفاده در این مطالعه
C. برنامه های داده کاوی
3. کاربرد
A. مجموعه داده ها
B. معیار ارزیابی عملکرد مدل
4. نتایج و نتیجه گیری
5. بحث
منابع
نتایج و نتیجه گیری
برنامه های داده کاوی R، Knime، Weka و RapidMiner در مجموعه داده بازاریابی بانک مورد استفاده قرار گرفته اند. این مدل ها توسط الگوریتم های دسته بندی k همسایه نزدیک، درخت تصمیم C4.5 و بیز ایجاد شده است که به طور متداول در این برنامه ها وجود دارد. عملکرد این مدل ها همراه با معیارهای دقت، صحت و f-measure مورد ارزیابی قرار گرفته است. در محدوده ای مطالعه، مجموعه های آموزش و تست با 60-40، 75-25، 80-20 و 90-10 درصد تفکیک ها در هر برنامه داده کاوی مقایسه شده است تا عملکرد تمامی روش های به کار گرفته شده مورد آزمایش قرار گیرد. این تفکیک ها به ترتیب در جداول 3، 4 و 5 نشان داده شده است.
بحث
در این مطالعه عملکرد برنامه های مختلف داده کاوی با ایجاد مدل ها همراه با الگوریتم های دسته بندی مورد ارزیابی قرار گرفته است. با این حال، الگوریتمی که بهترین نتیجه را در تمامی برنامه ارائه کرده است، الگوریتم درخت تصمیم بوده است. این نتایج پیشنهاد می دهد که روش درخت تصمیم عملکرد بهتری را صرف نظر از برنامه استفاده شده ارائه می کند. البته مطالعات بیشتری برای پشتیبانی از این نتیجه به غیر از مجموعه داده های بانک مورد نیاز است. این موضوع تحقیق دیگری برای بررسی بیشتر در آینده است.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.