کشف دانش (Knowledge discovery)

کشف دانش (Knowledge discovery)

کشف دانش (Knowledge discovery)


امروزه با گسترش سیستم های پایگاهی و حجم بالای داده های ذخیره شده در این سیستم ها، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد.

با استفاده از پرسش های ساده در SQL و ابزار های گوناگون گزارش گیری معمولی، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالاباشد، کاربران هر چند زبردست و با تجربه باشند، نمی توانند الگو های مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است.

از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند، در حالی که امروزه نیاز به روش هایی است که اصطلاحا به کشف دانش بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگو ها و رابطه های منطقی را بیان نمایند.

داده کاوی:

داده کاوی یکی از مهم ترین این روش ها است که به وسیله آن الگو های مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا بر اساس آنها تصمیمات مهم و حیاتی در سازمان ها اتخاذ شوند.

کشف دانش:

کشف دانش (Knowledge discovery) در واقع به عنوان یک مرحله ضروری از یک فرآیند بزرگ تر به نام “اکتشاف دانش در پایگاه داده ها” شناخته می شود. متخصصان حوزه محاسبات بر این نکته اتفاق نظر دارند که کلید تبدیل کلان داده به دانش در حوزه ای به نام داده کاوی (Data Mining) نهفته است.

حوزه های داده کاوی:

این حوزه از سه قسمت اساسی زیر تشکیل شده است:

  • مهندسی داده و ذخیره سازی (Data Engineering and Storage)
  • تحلیل داده (Data analysis)
  • یادگیری ماشین (Machine learning)

موضوع داده کاوی به قدری رواج یافته است که بسیاری آن را معادل فرآیند کشف دانش (Knowledge Discovery Process) در نظر می گیرند حال آنکه در واقعیت این گونه نیست و داده کاوی DM فقط قسمتی از فرآیند کشف دانش KDP است. برای درک بهتر این فرآیند، بهتر آن است که گام به گام مراحل این فرآیند را مورد بررسی قرار دهیم.

مراحل فرآیند کشف دانش:

مطالعه مقاله  ابزار های تحلیل داده

گام اول، پاکسازی داده ها (Data Cleaning):

حذف داده های نا ایستا و مزاحم که شامل از بین بردن نویز و ناسازگاری داده ها می باشد.

گام دوم، یکپارچه سازی داده ها (Data Integration):

ترکیب منابع داده متعدد و پراکنده و احیانا ناهمگن که در این مرحله چندین منبع داده ترکیب می شوند.

گام سوم، انتخاب داده ها (Data Selection):

بازیابی داده های مربوط به عمل کاوش از پایگاه داده ها که در این مرحله داده های مرتبط با آنالیز از پایگاه داده بازیابی می شوند.

گام چهارم، تبدیل داده ها (Data Transformation):

تبدیل یا تلفیق داده ها به اشکالی مناسب برای به کار بردن روش های مختلف آماری که شامل تبدیل داده ها به فرمی مناسب برای داده کاوی مثل خلاصه سازی (summary) و همسان سازی (aggregation) می باشد.

گام پنجم، داده کاوی (data mining):

مرحله های ضروری از فرآیند KDD است که در آن از روش های مختلف آماری برای استخراج الگو ها استفاده می شود. داده کاوی ترکیبی است از آمار، هوش مصنوعی، پایگاه داده و یادگیری ماشین. معروف ترین تکنیک های مورد استفاده در داده کاوی عبارتند از:

این مرحله فرآیند اصلی است که ضمن آن روال های هوشمند برای استخراج الگو ها از داده ها به کار گرفته می شوند.

گام ششم، ارزیابی الگو ها:

شناسایی الگو های جذاب ارائه دانش، بر اساس معیار های جذابیت که برای مشخص کردن الگو های صحیح و مورد نظر به وسیله معیار های اندازه گیری انجام می شود.

گام هفتم، ارائه دانش (Knowledge Presentation):

ارائه دانش استخراج شده با استفاده از تکنیک های نمایش اطلاعات هر پروژه کشف دانش مانند دیگر پروژه های سیستم اطلاعات باید مدیریت شود. به عبارت دیگر یعنی نمایش بصری، تکنیک های بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده شود.

پیشگامان بی نهایت مطالعه مقاله هوش تجاری را به شما عزیزان پیشنهاد می کند.

فرآیند کشف دانش

فرآیند کشف دانش

در این شکل فرآیند کشف دانش را به طور خلاصه و به ترتیب می توان دید. این نمودار را می توان به این صورت تفسیر کرد:

مرحله اول همان انتخاب داده هاست. برای كسب مناسب ترين سايز مورد نياز، برای داشتن يک فرآيند كارا‌ی كشف دانش در پايگاه داده انجام می گيرد.

مرحله هشتم، پيش پردازش داده ها:

یک مرحله اساسی برای فرآيند كشف دانش در پايگاه داده است. اين مرحله به منظور اطمينان از پاكی داده های انتخاب شده انجام می گيرد.

مطالعه مقاله  نرم افزار Power BI و انواع آن

تبديل داده ها گام ديگر در فرآيند كشف دانش در پايگاه داده است. اين مرحله همیشه قبل از داده كاوی انجام می شود؛ به این سبب که در مجموعه داده جمع آوری شده برای كاوش، غالبا هر مشخصه ‌(attribute) با يک واحد خاص مقیاس دهی شده است و اين تفاوت مقياس دهی در داده ها، باعث خطا در محاسبات الگوريتم های داده كاوی می گردد. پس برای جلوگيری از اين خطا داده های ورودی را در اين مرحله هم مقياس خواهيم كرد.

مرحله نهم، داده کاوی:

داده كاوی را “استفاده از الگوريتم ها برای استخراج اطلاعات و الگو های موجود در داده های تبديل شده‌” می دانيم. خروجی های الگوريتم های داده كاوی معمولا قابل درک برای انسان نيست و اکثرا نياز به يک مرحله تفسير دارد.

تفسير نتايج با تبديل كردن خروجی های الگوريتم های داده كاوی به شکل ها و فرمت های قابل دركی مانند گراف ها، جداول، مدل های رياضی و غيره شروع می شود كه به اين رويه تصوير ‌سازی (visualization) نيز گفته می شود.

فراگيری دانش (acquisition)، ساخت و تركيب (synthesis) دانش و نهايتا خلق دانش (creation) وظايفی هستند كه به وسیله رويه های تصوير سازی امكان پذير می شوند.

مرحله دهم، ارزيابی ميزان اعتبار دانش های كسب شده:

روش های مثل استفاده از ماتريس درهم ريختگی (Confusion matrix)، آناليز آماری و ارزيابی در اين مرحله استفاده می شود. البته برای جلوگیری از مشکلات و ایرادات احتمالی، اگر در مرحله ارزيابی نتايج داده كاوی، نتايج حاصل شده دچار كاستی باشند و در اعتبار آنها ترديد وجود داشته باشد، يک مرحله بازگشت به مراحل مختلف برای بازبینی و اصلاح و حل مشكلات موجود، تدارک ديده شده است.

همان طور که در آغاز مقاله اشاره کردیم، داده کاوی مهم ترین گام در این فرآیند است. با انجام فرآیند داده کاوی، دانش، ارتباط یا اطلاعات سطح بالا از پایگاه داده استخراج می شود و قابل مرور از دیدگاه های مختلف خواهد بود.

دانش کشف شده در سیستم های تصمیم یار، کنترل فرآیند، مدیریت اطلاعات و پردازش پرس و جو قابل استفاده خواهد بود. به عبارت دیگر می توان گفت که داده کاوی به عنوان یکی از شاخه های پیشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان یکی از نوید ‌بخش ترین زمینه های توسعه بین رشته ای در صنعت اطلاعات است.

یک سیستم داده کاوی را بر اساس معیار های مختلفی انتخاب می کنند. به عنوان مثال تناسب با نوع داده های ورودی، شفافیت خروجی داده کاوی، مقاومت در مقابل اشتباه در مقادیر داده ها، میزان صحت خروجی و توانایی کار کردن با حجم بالای داده ها را می توان از اصلی ترین معیار ها در این انتخاب به شمار آورد.

مطالعه مقاله  هوش تجاری

پیشگامان بی نهایت مطالعه مقاله زنجیره بلوکی (بلاک چین) را به شما عزیزان پیشنهاد می کند.

اجزای سیستم داده کاوی

اجزای سیستم داده کاوی

اجزای سیستم داده کاوی:

هر سیستم داده کاوی اجزای مختلفی دارد که به طور معمول عبارتند از:

پایگاه داده:

انباره داده یا دیگر مخازن اطلاعات که از مجموعه ای از پایگاه داده ها، انبار داده، صفحه گسترده یا دیگر انواع مخازن اطلاعات تشکیل شده است. پاکسازی داده ها و تکنیک های یکپارچه سازی روی این داده ها انجام می شود.

سرویس دهنده پایگاه داده:

یا انبار داده که مسئول بازیابی داده های مرتبط بر اساس نوع درخواست داده کاوی کاربر می باشد.

موتور داده کاوی:

که قسمت اصلی از سیستم داده کاوی است و به طور ایده آل شامل مجموعه ای از پیمانه نظیر توصیف، تداعی، کلاس بندی، آنالیز خوشه ها و آنالیز تکامل و انحراف است.

پیمانه ارزیابی الگو:

معیار های جذابیت را به کار می بندد و با پیمانه داده کاوی تعامل می کند، بدین صورت که تمرکز آن بر جستجو بین الگو های جذاب می باشد و از یک حد آستانه جذابیت استفاده می کند تا الگو های کشف شده را ارزیابی کند.

واسط کاربر گرافیکی:

در میان کاربر و سیستم داده کاوی ارتباط برقرار می کند، به کاربر اجازه می دهد تا با سیستم داده کاوی از طریق پرس و ‌جو ارتباط برقرار کند و شمای پایگاه داده یا انباره داده را مرور کرده، الگو های یافته شده را ارزیابی کرده و الگو ها را در فرم های بصری گوناگون بازنمایی کند.

این موارد را می توان در شکل زیر مشاهده کرد:

مراحل فرآیند داده کاوی

مراحل فرآیند داده کاوی

مراحل فرآیند داده کاوی:

در فرآیند داده کاوی مراحل زیر باید به ترتیب انجام شوند:

  • گام اول: درک کسب و کار
  • گام دوم: شناخت داده ها
  • گام سوم: آماده سازی داده ها
  • گام چهارم: مدلسازی
  • گام پنجم: ارزیابی
  • گام ششم و پایانی: به کارگیری

نکته: با توجه به این که داده کاوی نقش اساسی در فرآیند کشف دانش دارد، در هر گام از این فرآیند باید دقت بسیاری به کار گرفته شود.

به منظور کسب اطلاعات بیشتر، مطالعه مقاله تحلیل آماری رگرسیون خطی را به شما عزیزان پیشنهاد می نماییم.

جهت بهره مندی از تمامی خدمات طرح توجیهی با شماره 09371639243 تماس بگیرید.

مقالات تحلیل داده

Knowledge discoveryاستراتژیاقتصاداکتشاف دانشامکان سنجیبازاربازار مالیبازاریابیبازده ریسکبودجهبودجه ریزیتحقیقات بازارتحلیل دادهدادهداده کاویدیجیتال مارکتینگطرح توجیهیکشف دانش

Pid__irAuthor posts

پیشگامان توسعه بینهایت با بیش از چند دهه تجربه، متخصص در ارائه انواع طرح های توجیهی فنی- اقتصادی (امکان سنجی) با استفاده از بروز ترین نرم افزار های داده کاوی و بر پایه اقتصاد داده محور و تحلیل داده های کلان، آماده هوشمند سازی و تحلیل کسب و کارهای شما عزیزان می باشد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *