این یک مقاله دسترسی آزاد است که تحت مجوز انتساب Creative Commons توزیع شده است ، که امکان استفاده ، توزیع و تولید مثل نامحدود در هر رسانه را فراهم می کند ، مشروط بر اینکه کار اصلی به درستی ذکر شود.
داده های مرتبط
داده های مورد استفاده برای پشتیبانی از یافته های این مطالعه در مقاله گنجانده شده است.
چکیده
تصور می شود این یک تکنیک مؤثر برای رسیدگی به مشکل انفجار داده های آموزشی و عدم اطلاعات با شناسایی روابط بالقوه بین داده ها و هدایت تصمیم گیرندگان از طریق استخراج ، تحول ، تجزیه و تحلیل و مدل سازی داده های آموزشی است. بر این اساس ، این تحقیق یک مدل تجزیه و تحلیل داده ها را برای ارزیابی آموزش با استفاده از تکنیک خوشه بندی K-Means در DM ایجاد می کند. وزن هر شاخص از کیفیت جامع دانش آموزان با استفاده از AHP محاسبه می شود و از ارزش وزن برای تعیین اینکه آیا این شاخص ویژگی مهم استخراج سیستم تجزیه و تحلیل است ، استفاده می شود. از فناوری نمونه برداری بهبود یافته برای مقابله با نمایش مجموعه داده های در مقیاس بزرگ استفاده می شود. یک روش خوشه بندی پارتیشن نمونه به عنوان یک چارچوب کلی ارائه شده است. با توجه به داده های تجربی ، بهترین دقت این روش 95. 6 درصد است که 12. 1 درصد بیشتر از الگوریتم خوشه Mi و 6. 8 درصد بالاتر از الگوریتم DRCLUSTER است. از فناوری تجزیه و تحلیل خوشه بندی K-Mean برای تجزیه و تحلیل داده های ارزیابی جامع دانش آموزان در این مقاله ، با هدف تعیین منظم بودن پیامدهای داده ها ، تشخیص دقیق مشکلات یادگیری و ایجاد پایه و اساس توسعه استراتژی های مؤثر مدیریت دانش آموزان استفاده می شود.
1. مقدمه
با اجرای اصلاحات در تدریس ، ثبت نام همچنان رو به افزایش است و تعداد زیادی از کودکان از نظر ساخت مدرسه ، مدیریت تدریس و مدیریت معلمان با موانع قابل توجهی روبرو هستند [1]. مدارس مقدار قابل توجهی از داده های پیچیده دانش آموزان ، مانند اطلاعات وضعیت دانش آموزان ، اطلاعات دستیابی ، اطلاعات تخصصی و اطلاعات اخلاقی را جمع آوری کرده اند [2]. تطبیق حالت مدیریت قدیمی با جمعیت بزرگ دانشجویی و مدیریت داده ها چالش برانگیز بوده است. نحوه استفاده صحیح و تجزیه و تحلیل داده های خام عظیم و تبدیل آن به دانش و ارزش قابل استفاده ، به یک موضوع مهم نگرانی مشترک در داخل و خارج از کشور برای مقابله با مشکلات دشوار در پردازش داده های آموزشی تبدیل شده است [3]. معرفی فناوری مدیریت اطلاعات برای مقابله با مشکلات داده های تولید شده توسط هجوم دانش آموزان در زمینه آموزش ، به لطف توسعه سریع فناوری اینترنت نقش مهمی در ساخت مدارس داشته است [4]. دستیابی به داده های لازم برای ارزیابی آموزش بسیار حیاتی است. محققان به تدریج دریافتند که کانال های مجموعه محدود هستند و هنگام جمع آوری داده ها داده های بدون ساختار زیادی وجود دارد. برای ذخیره داده های معنی دار مدت زمان زیادی طول می کشد ، و دستیابی به بازخورد به موقع اطلاعات بسیار دشوارتر است [5]. در مواجهه با این موضوعات در حال رشد ، انواع برنامه های آموزشی و سیستم عامل برای کمک به معلمان در جمع آوری و تجزیه و تحلیل داده ها بوجود آمده و اکنون به طور گسترده مورد استفاده قرار می گیرند [6]. ظهور فناوری اطلاعات با اجازه جمع آوری ، ذخیره سازی ، تجزیه و تحلیل و تصمیم گیری داده ها و اجازه جمع آوری به موقع مطالعات دانشجویی ، به تحقیقات آموزشی کمک کرده است. به طور همزمان ، این داده ها را برای معلمان پشتیبانی می کند تا به درستی و به موقع پیشرفت دانش آموزان را تجزیه و تحلیل کنند و سبک تدریس خود را تغییر دهند [7]. معرفی فناوری اطلاعات نه تنها ممکن است نیروی انسانی تکراری را از بین ببرد و راندمان کارکنان را افزایش دهد ، بلکه می تواند به دلیل مکانیسم انتقال سریع اطلاعات ، نقش اساسی در اداره مشترک مدارس داشته باشد.
DM (داده کاوی) در پایگاه داده کشف دانش نیز نامیده می شود. DM فرآیند کشف اطلاعات و دانش پنهان، منظم و ناشناخته اما بالقوه مفید و قابل درک از تعداد زیادی داده کاربردی کاربردی ناقص، پر سر و صدا، فازی و تصادفی است. تجزیه و تحلیل خوشه ای یک زمینه تحقیقاتی مهم و فعال در DM است [8]. به عنوان یک روش یادگیری بدون نظارت، خوشه بندی اساساً یک مشکل تخمین چگالی است. داده هایی که باید خوشه بندی شوند، از قبل با دسته بندی آن برچسب گذاری نشده اند و می توانند توسط یک مدل ترکیبی تولید شوند. ایده اصلی آن تقسیم داده ها به چندین کلاس یا خوشه برای به حداکثر رساندن شباهت اشیاء داده در خوشه ها و به حداقل رساندن شباهت اشیاء داده بین خوشه ها است [9]. الگوریتم خوشه بندی را می توان با توجه به نوع داده ویژگی های فیلد در پایگاه داده و ویژگی های اشیایی که توسط خوشه بندی انجام می شود انتخاب کرد. الگوریتمهای خوشهبندی رایج شامل الگوریتم خوشهبندی مبتنی بر پارتیشن، الگوریتم خوشهبندی سلسله مراتبی، روش مبتنی بر چگالی، روش مبتنی بر شبکه، روش مبتنی بر مدل و روش مبتنی بر محدودیت است. در حال حاضر، مجموعه داده های در مقیاس بزرگ اغلب در زمینه آموزش ظاهر می شوند، که چالش های جدیدی را برای تجزیه و تحلیل داده ها و تحقیقات ایجاد می کند. در مواجهه با داده های در مقیاس بزرگ، الگوریتم های تحلیل سنتی دیگر به اندازه داده های کوچک و متوسط «دستی» نیستند، اما مشکلات زیادی مانند پردازش دشوار، زمان پردازش طولانی، تعیین پارامتر دشوار، راندمان پایین، وکیفیت خوشه بندی پایینعلاوه بر این، محتوای مجموعه دادههای ارزیابی تک است و روش تحلیل فاقد عمق مشخصی است. برای وضعیت فعلی تجزیه و تحلیل داده های آموزش و پرورش، این مقاله الگوریتم خوشه بندی K-means را برای تجزیه و تحلیل داده های ارزیابی آموزش معرفی می کند. نوآوری های این مقاله به شرح زیر است:
از دیدگاه تئوری یادگیری شناختی، این مقاله با هدف پرداختن به زمان پردازش طولانی دادههای آموزشی فعلی، پارامترهای نامشخص و کیفیت پایین خوشهبندی انجام شد. محتوای جمع آوری داده های ارزیابی تک است و روش تحلیل فاقد عمق معین و بسیاری مسائل دیگر است. برای تجزیه و تحلیل داده های ارزیابی آموزش، الگوریتم خوشه بندی K-means معرفی شده است. با توجه به یک سری آزمایش، روش پیشنهادی برای DM در مقیاس بزرگ مناسب است. برای محققین مربوطه، این ارتباط مرجع و راهنمایی دارد.
2. کار مرتبط
2. کار مرتبط
2. کار مرتبط
کلی و همکارانیک الگوریتم خوشهبندی سریع و آرام بر اساس نظریه گراف پیشنهاد کرد. پیچیدگی زمانی مجانبی این الگوریتم به صورت خطی با ظرفیت داده در صورت اعمال به مجموعه داده های مقیاس بزرگتر مرتبط است [10]. چارلز و همکارانیک الگوریتم خوشهبندی K-means کارآمد را پیشنهاد کرد که از فواصل از پیش محاسبهشده بین نقاط و خوشههای غیرفعال برای کاهش میزان محاسبه فاصله استفاده میکند و زمان و فضای اجرا را تا حد زیادی کاهش میدهد [11]. روزنکرانز و همکارانبر این باورند که بسترها و ابزارهای تحلیل آماری داده های آموزشی کنونی در آموزش مدارس ترویج و به کار گرفته شده اند، اما هنوز مشکلات زیادی در نحوه تحلیل و استفاده مؤثر از این داده ها وجود دارد [12]. اسکات و دیگران بر این باورند که در فرآیند آموزش، داده های ارزشیابی آموزشی سهم زیادی را به خود اختصاص می دهد و به وضوح وضعیت واقعی یادگیری دانش آموزان را نشان می دهد که نقش هدایت کننده مهمی در تدریس معلمان ایفا می کند. بنابراین، از دیدگاه معلمان، برای بهینهسازی استفاده از دادههای ارزشیابی آموزشی، از سیستم «Jike Big Data» استفاده میکند [13]. هاپر و همکارانمسائل مربوط به بهینه سازی تدریس را بر اساس تحلیل داده های ارزشیابی آموزشی مورد بررسی قرار داد. پیشنهاد میکند از دادههای ارزشیابی آموزشی برای تعیین نقطه شروع یادگیری فراگیران، طراحی اهداف یادگیری قابل سنجش، انتخاب محتوای آموزشی مناسب برای یادگیرندگان و ارزیابی دقیق کیفیت تدریس و انجام تجزیه و تحلیل یادگیری شخصی و بازخورد به موقع استفاده شود [14]. Wolbring و همکاراناشاره کرد که جمع آوری و تجزیه و تحلیل داده های ارزشیابی آموزشی نه تنها انعکاسی از دستاوردهای یادگیری دانش آموزان است، بلکه بازتابی از تأثیر تدریس معلمان نیز می باشد [15]. گلدبرگ و همکاراناز شاخصهای کیفیت ایدئولوژیک و اخلاقی، کیفیت آموزش فکری، کیفیت جسمی و روانی و کیفیت رشد برای ارزیابی و تقسیمبندی شاخصها به چند شاخص ثانویه استفاده کرد. ارزیابی از الگوریتم تکاملی، ارزیابی جامع فازی، روش تحلیل آماری چند متغیره و غیره برای به دست آوردن وزنهای مؤثر استفاده میکند و اقلام دادهها با توجه به وزنها جمع میشوند تا ارزش ارزیابی امتیاز کمی به دست آید [16]. کانگ و همکارانبرخی از داده ها را از یک مجموعه داده در مقیاس بزرگ انتخاب کرد، از این داده ها برای ساخت یک ماتریس مجاورت استفاده کرد و بردارهای ویژه را با تجزیه ویژه ماتریس مجاورت به دست آورد، و در نهایت از Nyström برای تقریب حل ویژه ماتریس اصلی استفاده کرد [17].
با هدف روشهای اصلی DM ، هو و همکاران. ایده ها و برنامه های الگوریتم های مرتبط را مورد مطالعه قرار داد ، مزایا و مضرات روشهای موجود را مورد تجزیه و تحلیل قرار داد و آنها را مقایسه کرد. بر این اساس ، یک روش تجزیه و تحلیل داده ها بر اساس الگوریتم درخت تصمیم بهینه ارائه شده است [18]. لاول و همکاران. تجزیه و تحلیل و طراحی یک بانک اطلاعاتی ارزیابی بر اساس نیازهای عملکردی سیستم ارزیابی تحصیلات مدرسه و تدریس وضعیت. این می تواند توابع مانند حفظ اطلاعات اساسی ، آمار و پرس و جو از داده های ارزیابی را تحقق بخشد [19]. وانگ و همکاران. یک الگوریتم خوشه بندی فازی جدید را بر اساس الگوریتم ژنتیکی ارائه داد ، که تجزیه و تحلیل خوشه بندی داده های مشخصه با ویژگی های مختلط را تحقق بخشید. با معرفی الگوریتم ژنتیکی به الگوریتم ، راه حل بهینه جهانی را می توان به سرعت و مؤثر بدست آورد و به هیچ وجه به اولیه سازی نمونه اولیه بستگی ندارد [20].
بر اساس این مطالعات ، این مقاله یک روش تجزیه و تحلیل داده های ارزیابی آموزشی را بر اساس الگوریتم خوشه بندی K-Means برای حل مشکلات پردازش دشوار ، زمان پردازش طولانی و تعیین پارامتر دشوار ارائه می دهد. در این مقاله ، اولا ، روش تجزیه و تحلیل خوشه ای در فناوری DM برای ایجاد مدلی برای تجزیه و تحلیل کمی شاخص ها و مقادیر آنها از اشیاء استفاده می شود ، و سپس ، یک روش ارزیابی جامع جدید برای دانش آموزان که تجزیه و تحلیل کمی با تجزیه و تحلیل کیفی را ترکیب می کنند. سپس از AHP برای محاسبه وزن هر شاخص از کیفیت جامع دانش آموزان استفاده می شود و قضاوت می کند که آیا این شاخص ویژگی اصلی استخراج سیستم تجزیه و تحلیل با توجه به ارزش وزن است. سرانجام ، از تکنیک نمونه برداری بهبود یافته برای مقابله با نمایش مجموعه داده های در مقیاس بزرگ استفاده می شود. یک چارچوب کلی از الگوریتم خوشه بندی پارتیشن نمونه گیری ارائه شده است. اعتبار این چارچوب با اجرای الگوریتم های K-Means و K-Medoids تأیید می شود. ثابت شده است که این روش عملی و عملی است.
3. روش شناسی
3. 1فناوری مربوط به DM
با توسعه تدریجی داده های بزرگ آموزشی ، هوش مصنوعی ، تجزیه و تحلیل یادگیری و بستر یادگیری هوشمند شبکه ، می توان داده های یادگیری تمام فرآیند زبان آموزان را ثبت کرد. در عین حال ، با توسعه سریع DM ، هوش مصنوعی و سایر فناوری ها ، این داده های آموزشی می توانند به صورت خودکار و عمیق مورد تجزیه و تحلیل و پردازش قرار گیرند و زبان آموزان را می توان شخصی سازی و تشخیص داد. عملکرد اصلی فناوری DM کشف قوانین بالقوه از داده های در مقیاس بزرگ است. DM (داده کاوی) یک فناوری تخصصی برای استخراج دانش فوق العاده از داده های در مقیاس بزرگ است. این یک فرآیند استخراج اطلاعات مفید از داده های ناقص ، عظیم ، پر سر و صدا ، فازی و تصادفی است که مردم از قبل نمی دانند. DM فرایندی برای کشف اطلاعات یا دانش بالقوه مفید در واقعیت است. این فرایند برای کشف دانش در پایگاه داده ضروری است ، که در آن کشف دانش فرایندی برای تبدیل داده های خام به اطلاعات مؤثر است که می تواند برای تجزیه و تحلیل استفاده شود. DM فرایندی برای انتخاب ، کاوش و مدل سازی مقدار زیادی از داده ها برای کشف قوانین و روابط ناشناخته از قبل است. هدف DM دریافت نتایج واضح و مفید برای صاحب پایگاه داده آموزش است. فرآیند DM به طور کلی شامل تعیین شیء تجاری ، تهیه داده ها ، DM و تجزیه و تحلیل نتیجه است.
تجزیه و تحلیل خوشه ای در DM یک زمینه تحقیقاتی فعال و چالش برانگیز است. در دهه های اخیر ، اهمیت و ویژگی های متقاطع آن با سایر مسیرهای تحقیق توسط مردم به طور گسترده ای شناخته شده است. این نقش بسیار مهمی در شناسایی ساختار داخلی داده ها ایفا می کند و به یکی از مطالب مهم تحقیقاتی DM ، یادگیری ماشین و تشخیص الگوی تبدیل شده است. تفاوت بین گروه ها واضح است و داده های موجود در همان گروه تا حد ممکن مشابه هستند. خوشه بندی داده ها اشیاء فیزیکی یا انتزاعی را به چندین گروه تقسیم می کند. در هر گروه ، شباهت زیادی بین اشیاء وجود دارد ، اما شباهت کم بین گروه ها وجود دارد. این همان و متفاوت از طبقه بندی است. همین مسئله این است که منبع داده به چندین قسمت تقسیم می شود. تفاوت در این است که این نوعی یادگیری بدون نظارت است و شماره گروه بندی نهایی و استاندارد گروه بندی را نمی داند. به عنوان یک الگوریتم خوشه بندی کلاسیک ، K-Mean عمدتاً طبقه بندی های مختلف مجموعه داده ها را از طریق یک فرآیند تکراری تحقق می بخشد. این الگوریتم مزایای سادگی و مقیاس پذیری قوی را دارد. در زمینه DM ، الزامات معمولی برای خوشه بندی عمدتا شامل جنبه های زیر است: ① مقیاس پذیری ، ② توانایی رسیدگی به ویژگی های مختلف داده های مختلف ، ③ هر خوشه ای شکل را می توان یافت ، ④ حساس به سفارش ضبط شده وارد شده ، ⑤ بعد بالا ، ⑥ به حداقل رساندندانش دامنه برای تعیین پارامترهای ورودی ، ⑦ توانایی برخورد مؤثر با داده های نویز و غیر طبیعی و ⑧ در دسترس بودن و تفسیر. در مرحله DM ، کار یا هدف از معدن تعیین می شود و روش استخراج معدن برای اجرای عملکرد DM و به دست آوردن الگوهای مفید انتخاب می شود. الزامات خاص برنامه DM تعیین می شود ، هدف از استخراج معدن پاک می شود و تأثیر آن پس از اتمام سیستم قابل دستیابی است. پیشینه زمینه کاربردی مورد تجزیه و تحلیل قرار می گیرد و هدف مسئله تعیین می شود. دانش پیش زمینه زمینه های مرتبط درک شده است ، نیازهای کاربران روشن می شود و داده ها برای حل مشکلات جمع آوری می شوند و خدمات برای کارهای پیگیری ارائه می شود. تجزیه و تحلیل داده های سنتی نوعی تجزیه و تحلیل تأیید است. این نوعی تجزیه و تحلیل داده های کاربر محور است ، با تمرکز بر توصیف حقایقی که در گذشته اتفاق افتاده است. DM به اطلاعات معدن و کشف دانش بدون فرضیه است. اطلاعات به دست آمده دارای سه ویژگی است: مؤثر ، ناشناخته از قبل و عملی.
این پیش بینی وضعیت آینده و توضیح دلایل واقعی گذشته است. برای به دست آوردن اطلاعات بالقوه مؤثر برای پاسخگویی به نیازهای کاربران ، لازم است که اطلاعات سطح را به طور کامل استخراج کنید ، داده های اضافی را حذف کرده و داده های کلیدی را به صورت بصری به کاربران نمایش دهید. پیش بینی و توضیحات دو هدف DM است. پیش بینی به استفاده از برخی از زمینه های اطلاعاتی و متغیرها در پایگاه داده برای پیش بینی اطلاعات مفید پنهان اشاره دارد و توضیحات به توصیف داده ها به عنوان یک الگوی قابل درک اشاره دارد. در انتخاب الگوریتم دو جنبه وجود دارد: اول ، با توجه به ویژگی های مختلف داده های مختلف ، الگوریتم مربوط به آن به معدن انتخاب شده است. دوم ، با توجه به نیاز کاربران یا عملکرد واقعی سیستم. این مرحله اصلی و دشواری روند کشف دانش است.
3. 2داده های بزرگ آموزش و ارزیابی آموزشی
در این مقاله آمده است که داده های بزرگ آموزشی به جمع آوری داده های تولید شده در کل فرآیند فعالیت های آموزشی و مطابق با نیازهای آموزشی ، که برای توسعه آموزشی استفاده می شود ، اشاره دارد و می تواند ارزش بالقوه خوبی ایجاد کند. داده های بزرگ برای آموزش زیر مجموعه ای از داده های بزرگ است ، و این مجموعه ای از داده های تولید شده در طول فرآیند آموزشی است و بر اساس نیازهای آموزشی جمع آوری شده است که برای بهبود آموزشی مورد استفاده قرار می گیرد و از ارزش بالقوه زیادی برخوردار است. مدارس سیستم های مدیریت آموزشی را خریداری یا تطبیق داده اند تا با افزایش جمعیت دانش آموزان ، اطلاعات دانش آموزان را بهتر اداره کنند. هدف اصلی این سیستم پیگیری اطلاعات مربوط به پیشرفت تحصیلی دانش آموزان ، به عنوان مثال ، نمرات آزمون دانش آموزان و امتیازات ، اطلاعات مربوط به برنامه درسی آنها ، برنامه های امتحان ، حضور و اطلاعات مربوط به پاداش و نقض نظم و انضباط ، از جمله موارد دیگر است. همه اینها داده های بزرگ آموزشی است. بسته به دیدگاه ، استانداردهای مختلف طبقه بندی برای داده های بزرگ آموزش وجود دارد. آموزش داده ها ، داده های مدیریت ، داده های تحقیقاتی علمی و داده های خدمات را می توان در منابع داده یافت. با توجه به میزان سازمان ، می توان آن را به داده های ساختاری ، داده های نیمه ساختار یافته و داده های بدون ساختار جدا کرد. می توان آن را به داده های فرآیند و داده های نتیجه در مرحله جمع آوری جدا کرد. داده های فرآیند اطلاعات جمع آوری شده در طی فرآیند تدریس است که تعیین آن به طور مستقیم دشوار است. داده های قابل اندازه گیری به داده های نتیجه گفته می شود.
یک بانک اطلاعاتی عظیم آموزش برای جمع آوری داده های گسترده دانش آموزان ، از جمله نمرات آزمون دانش آموزان ، فعالیت های اجتماعی ، حضور در کلاس و سرگرمی ها ساخته شده است. با تکیه بر ده ها میلیون داده جمع آوری شده توسط بانک اطلاعاتی می تواند به دانشجویان در دانشگاه های مختلف کمک کند تا تجزیه و تحلیل داده ها را انجام دهند ، به آنها کمک کنند تا دلایلی را پیدا کنند که نمی توانند نمرات خود را بهبود بخشند و به آنها در تنظیم سبک های یادگیری خود یا تغییر سبک زندگی خود در زمان کمک کنند تا از آنها جلوگیری کنند. ترک مدرسه. داده های جمع آوری شده در هر ارزیابی به عنوان داده های ارزیابی آموزشی در این مقاله تعریف شده اند ، و انواع داده ها عمدتاً داده های تولید شده در فرآیند یادگیری از جمله نقاط دانش ، سؤالات ، دشواری ، تبعیض ، وضعیت حق و اشتباه و نادرست زبان آموزان ، نمرات و رتبه بندی هستند. واددر حال حاضر ، ارزش کاربرد داده های ارزیابی آموزشی عمدتاً در شش جنبه منعکس می شود ، یعنی ارتقاء مدیریت تدریس علمی بیشتر ، ارتقاء نوآوری و اصلاح حالت تدریس ، ترویج تحقق یادگیری شخصی ، ارتقاء بازسازی سیستم ارزیابی آموزشی ، ارتقاءتحول موفقیت آمیز الگوی تحقیقات علمی و ترویج انسان سازی خدمات آموزشی. ارزیابی آموزشی به فرایند سنجش علمی و داوری فعالیتهای مختلف آموزشی ، فرایندهای آموزشی و نتایج آموزشی با استفاده از فناوری ها و روش های خاص تحت هدایت برخی از ارزشهای آموزشی و با توجه به اهداف آموزشی تعیین شده اشاره دارد. در حال حاضر ، تحقیقات در زمینه آموزش ابتدایی به تازگی آغاز شده است ، و پلت فرم تجزیه و تحلیل داده های ارزیابی آموزش نتوانسته است تصمیمات آموزش دقیقی را برای معلمان و خدمات تدریس شخصی برای دانش آموزان ارائه دهد. بنابراین ، تحقیق در مورد داده های بزرگ آموزشی باید تقویت شود. شکل 1 یک روش بهینه سازی تدریس مبتنی بر داده های ارزیابی آموزشی است.
روش بهینه سازی تدریس بر اساس داده های ارزیابی آموزشی.
داده های ارزیابی آموزش ، واقعیت داده های به دست آمده برای اثر آموزش یا توسعه دانش آموزان در همه جنبه ها است و ارزیابی آموزش فرایند قضاوت ارزش مبتنی بر این داده ها است. داده های ارزیابی دانش آموزان یکی از زیر مجموعه های داده های بزرگ آموزشی است که مربیان با آنها بیشتر آشنا هستند. منابع آن فراوان است ، از جمله ارزیابی سازنده ، تست واحد ، تست میان مدت و نهایی و آزمایش منطقه ای در مقیاس بزرگ. انواع مختلفی از داده ها از جمله نمرات آزمون و ارزیابی معلمان وجود دارد. سیستم های آموزشی و اداری ثابت ، یکدست و جزم کننده ، هنگام مواجهه با گروه های متنوع و سفارشی دانشجویی ، نقص های بی شماری را نشان داده اند. برای اصلاح تکنیک های آموزشی و حالت های مدیریتی ، ما باید با موقعیت غالب دانش آموزان شروع کنیم و بر اساس خصوصیات آنها دستورالعمل متناسب را ارائه دهیم. در آموزش مدرسه ، داده های ارزیابی به عنوان مهمترین شاخص پیشرفت آموزشی و تدریس در نظر گرفته می شوند. این داده ها به طور عمده نمرات آزمون جمع آوری شده از طریق اندازه گیری ، و جمع آوری دقیق ، طبقه بندی ، مرتب سازی ، آمار و تجزیه و تحلیل می توانند آنها را به داده های بزرگ بسیار ارزشمند در آموزش و پرورش تبدیل کنند. معلمان رهبران دانش آموزان در حوزه آموزش هستند. هرچه بیشتر آنها در مورد دانش آموزان بدانند ، بهتر می توانند مناسب ترین محتوای یادگیری را در کلاس انتخاب کنند ، دقیق ترین اهداف یادگیری را تعیین کنند ، ارزیابی های یادگیری عینی را انجام دهند و بازخورد یادگیری به موقع را ارائه دهند ، راهنمایی های شخصی را در اختیار دانش آموزان قرار دهند و به آنها کمک کنند تا توانایی های خود را توسعه دهندپتانسیل کامل آنهااستفاده از نرم افزار یا ابزارهای تجزیه و تحلیل داده های ارزیابی آموزشی در فرآیند تدریس و همچنین جمع آوری و تجزیه و تحلیل روتین این داده ها ، برای به حداکثر رساندن ارزش داده های ارزیابی بسیار مهم است. معلمان می توانند در دانش دانش آموزان خود در بالای تغییرات باقی بمانند ، به آنها در تغییر سرعت یادگیری خود کمک کنند و به طور مداوم فرایند طراحی آموزشی را تقویت و بهینه سازی کنند.
3. 3تجزیه و تحلیل داده های ارزیابی آموزشی بر اساس الگوریتم k-mean
یکپارچه سازی داده ها، انتخاب داده ها و پیش پردازش داده ها سه مرحله فرعی آماده سازی داده ها هستند. یکپارچه سازی داده ها داده ها را از فایل ها یا پایگاه های داده متعدد یکپارچه می کند، آن را پاک می کند و ابهام معنایی را برطرف می کند. هدف از انتخاب داده ها این است که بفهمیم هدف عملیات کشف چیست، که داده های هدف است، که مجموعه ای از داده های گرفته شده از پایگاه داده اصلی برای برآورده کردن خواسته های کاربران است. هدف از آماده سازی داده ها تبدیل داده های خام به قالبی قابل تجزیه و تحلیل است. پیش پردازش داده ها مستلزم ترکیب داده ها از چندین منبع، حذف مقادیر تکراری داده و داده های پر سر و صدا، و غربال کردن مجموعه داده ها و کیفیت ویژگی هایی است که با فعالیت های DM فعلی مرتبط نیستند. K-Means از الگوریتم قانون برای محاسبه فاصله بین اقلام داده استفاده می کند و سپس به طور مکرر وضعیت گروه بندی اشیاء داده به دست آمده را تا زمانی که مرکز حرکت نکند محاسبه می کند و در نتیجه نتایج خوشه بندی K را به همراه دارد. جریان الگوریتم کلی در شکل 2 نشان داده شده است.
جریان کلی الگوریتم خوشه بندی K-means.پس از مرحله DM، الگوهای نتیجه بهدستآمده معمولا زائد هستند یا نیازهای کاربر را برآورده نمیکنند، بنابراین لازم است طبق استانداردهای خاصی حذف، فیلتر یا بازگشت به مرحله قبل و انتخاب مجدد دادهها و روشها برای به دست آوردن الگوها و دانش معنادار.. در طول کار، منابع داده های مختلف و فرمت های مختلف داده های جمع آوری شده نیز متفاوت است، بنابراین داده های مختلف باید یکپارچه و پاکسازی و پردازش شوند. فرآیند کلی خوشه بندی شامل انتخاب ویژگی، سنجش شباهت، الگوریتم خوشه بندی، تأیید نتایج و تصمیم گیری است. الگوریتم K-Means ساده و کارآمد است. با این حال، هیچ تعریف استاندارد مشخصی برای عدد خوشهبندی k و انتخاب نقطه مرکزی الگوریتم وجود ندارد و اکثر آنها به صورت تصادفی ارائه شدهاند که به راحتی تأثیر زیادی بر نتایج الگوریتم خواهند داشت. بنابراین، یک روش انتخاب برای حل مقدار اولیه k استفاده می شود. با توجه به مجموعه ای از n نقطه داده:کجا oپس از مرحله DM، الگوهای نتیجه بهدستآمده معمولا زائد هستند یا نیازهای کاربر را برآورده نمیکنند، بنابراین لازم است طبق استانداردهای خاصی حذف، فیلتر یا بازگشت به مرحله قبل و انتخاب مجدد دادهها و روشها برای به دست آوردن الگوها و دانش معنادار.. در طول کار، منابع داده های مختلف و فرمت های مختلف داده های جمع آوری شده نیز متفاوت است، بنابراین داده های مختلف باید یکپارچه و پاکسازی و پردازش شوند. فرآیند کلی خوشه بندی شامل انتخاب ویژگی، سنجش شباهت، الگوریتم خوشه بندی، تأیید نتایج و تصمیم گیری است. الگوریتم K-Means ساده و کارآمد است. با این حال، هیچ تعریف استاندارد مشخصی برای عدد خوشهبندی k و انتخاب نقطه مرکزی الگوریتم وجود ندارد و اکثر آنها به صورت تصادفی ارائه شدهاند که به راحتی تأثیر زیادی بر نتایج الگوریتم خواهند داشت. بنابراین، یک روش انتخاب برای حل مقدار اولیه k استفاده می شود. با توجه به مجموعه ای از n نقطه داده:نشان دهنده نقطه مرکزی کلاس C استپس از مرحله DM، الگوهای نتیجه بهدستآمده معمولا زائد هستند یا نیازهای کاربر را برآورده نمیکنند، بنابراین لازم است طبق استانداردهای خاصی حذف، فیلتر یا بازگشت به مرحله قبل و انتخاب مجدد دادهها و روشها برای به دست آوردن الگوها و دانش معنادار.. در طول کار، منابع داده های مختلف و فرمت های مختلف داده های جمع آوری شده نیز متفاوت است، بنابراین داده های مختلف باید یکپارچه و پاکسازی و پردازش شوند. فرآیند کلی خوشه بندی شامل انتخاب ویژگی، سنجش شباهت، الگوریتم خوشه بندی، تأیید نتایج و تصمیم گیری است. الگوریتم K-Means ساده و کارآمد است. با این حال، هیچ تعریف استاندارد مشخصی برای عدد خوشهبندی k و انتخاب نقطه مرکزی الگوریتم وجود ندارد و اکثر آنها به صورت تصادفی ارائه شدهاند که به راحتی تأثیر زیادی بر نتایج الگوریتم خواهند داشت. بنابراین، یک روش انتخاب برای حل مقدار اولیه k استفاده می شود. با توجه به مجموعه ای از n نقطه داده:. فاصله اقلیدسی بین دو نقطه داده p بعدی xمنو x
j
تنظیم شده است، مانند فرمول:
x i = x i 1 , x i 2 , x i 3 , … , x i p , x j = x j 1 , x j 2 , x j 3 , … , x j p , d x i , x j = x i 1 − x j 1 2 + x i 2 − 2 x + …x i p − x j p 2 .
میانگین فاصله تمام نمونه ها به صورت زیر تعیین می شود:پس از مرحله DM، الگوهای نتیجه بهدستآمده معمولا زائد هستند یا نیازهای کاربر را برآورده نمیکنند، بنابراین لازم است طبق استانداردهای خاصی حذف، فیلتر یا بازگشت به مرحله قبل و انتخاب مجدد دادهها و روشها برای به دست آوردن الگوها و دانش معنادار.. در طول کار، منابع داده های مختلف و فرمت های مختلف داده های جمع آوری شده نیز متفاوت است، بنابراین داده های مختلف باید یکپارچه و پاکسازی و پردازش شوند. فرآیند کلی خوشه بندی شامل انتخاب ویژگی، سنجش شباهت، الگوریتم خوشه بندی، تأیید نتایج و تصمیم گیری است. الگوریتم K-Means ساده و کارآمد است. با این حال، هیچ تعریف استاندارد مشخصی برای عدد خوشهبندی k و انتخاب نقطه مرکزی الگوریتم وجود ندارد و اکثر آنها به صورت تصادفی ارائه شدهاند که به راحتی تأثیر زیادی بر نتایج الگوریتم خواهند داشت. بنابراین، یک روش انتخاب برای حل مقدار اولیه k استفاده می شود. با توجه به مجموعه ای از n نقطه داده:در فرمول ، جپس از مرحله DM، الگوهای نتیجه بهدستآمده معمولا زائد هستند یا نیازهای کاربر را برآورده نمیکنند، بنابراین لازم است طبق استانداردهای خاصی حذف، فیلتر یا بازگشت به مرحله قبل و انتخاب مجدد دادهها و روشها برای به دست آوردن الگوها و دانش معنادار.. در طول کار، منابع داده های مختلف و فرمت های مختلف داده های جمع آوری شده نیز متفاوت است، بنابراین داده های مختلف باید یکپارچه و پاکسازی و پردازش شوند. فرآیند کلی خوشه بندی شامل انتخاب ویژگی، سنجش شباهت، الگوریتم خوشه بندی، تأیید نتایج و تصمیم گیری است. الگوریتم K-Means ساده و کارآمد است. با این حال، هیچ تعریف استاندارد مشخصی برای عدد خوشهبندی k و انتخاب نقطه مرکزی الگوریتم وجود ندارد و اکثر آنها به صورت تصادفی ارائه شدهاند که به راحتی تأثیر زیادی بر نتایج الگوریتم خواهند داشت. بنابراین، یک روش انتخاب برای حل مقدار اولیه k استفاده می شود. با توجه به مجموعه ای از n نقطه داده:نقطه سانتروئید همان دسته از داده ها است. ج
من
فرمول محاسبه به شرح زیر تعریف شده است:
تمیز کردن داده ها فرآیند تمیز کردن داده های مشکل ساز است. وظیفه آن تمیز کردن داده هایی است که الزامات را برآورده نمی کنند ، معمولاً حذف یا اصلاح می شوند ، اما به سادگی اصلاح نمی شوند. داده هایی که الزامات را برآورده نمی کنند ، داده های زائد ، مفقود و اشتباه هستند. تمیز کردن داده ها عمدتا شامل استاندارد سازی قالب ، حذف داده های غیر طبیعی و داده های تکراری و تصحیح داده های خطا است. لازم است برخی از داده های تکراری در سیستم مدیریت داده های آزمون و به دست آوردن داده های ابعاد دیگر از سایر سیستم ها برای تکمیل کل بانک اطلاعاتی. هدف از تمیز کردن داده ها ، اطمینان از صحت و اعتبار داده ها ، اطمینان از کارایی خوب استخراج معدن در فرآیند معدن است. در عین حال ، تمیز کردن داده ها پایه ای برای تکمیل کل کار معدن است. با توجه به ورودی داده ها به عنوان اطلاعات ، ویژگی ها برای نشان دادن کل مجموعه داده ها استخراج می شوند ، به طوری که می توان اطلاعات اضافی را تا حد امکان کاهش داد. سپس ، با توجه به شباهت بین نقاط داده ، یک الگوریتم خوشه بندی خاص برای مجموعه داده اعمال می شود و عملکرد هزینه معمولاً با شباهت نقاط داده تعیین می شود به حداقل. وقتی الگوریتم همگرا شود ، خوشه خروجی را برمی گرداند. خوشه بندی بسیار پیچیده است. تجزیه و تحلیل خوشه بندی مختلف برای داده های یکسان اعمال می شود ، و نتایج کاملاً متفاوت است و تعریف خوشه بندی معمولاً نسبی است. روش های خوشه بندی مختلفی برای همان گروه از اشیاء وجود دارد ، و خوشه بندی های مختلف داده های یکسان احتمالاً با برنامه های مختلف مطابقت دارد.منجایی که μمنآیا سانتروئید کلاس C است
j
و C کلاس اختصاص داده شده به داده ها است. هنگامی که داده های جدید به یک برچسب کلاس اختصاص داده شدند ، Centroids Cluster به طور تکراری به روز می شوند تا اینکه تمام نقاط داده پردازش شوند:
داده ها در سیستم ارزیابی را می توان به دو گروه تقسیم کرد: یکی که می تواند با استفاده از زبان ریاضی نمایش داده شود و دیگری که می تواند با استفاده از کلمات بیان شود. داده های زبان را می توان بررسی و مرتب کرد، و روش درخت تصمیم، تجزیه و تحلیل همبستگی، و روش های تجزیه و تحلیل خوشه ای فناوری DM برای ایجاد مدلی برای تعیین کمیت شی تجزیه و تحلیل استفاده می شود. به دلیل بینظمی بودن دادههای بهدستآمده از منابع مختلف، تبدیل دادهها برای ایجاد یک فرآیند مناسب برای DM مورد نیاز است. کیفیت خوشهبندی K-means هنگام برخورد با مجموعه دادههای عظیم ناامن است. در نتیجه، این مطالعه یک استراتژی نمونهگیری را برای قابل قبول کردن الگوریتم خوشهبندی پارتیشن برای مجموعههای داده در مقیاس بزرگ معرفی میکند. ساده ترین راه انتخاب پارتیشن های متعدد به صورت تصادفی از مجموعه داده های اصلی در مقیاس بزرگ است. هر پارتیشن از یک تکنیک خوشه بندی استفاده می کند، با نتایج خوشه بندی که هم قابل اعتماد هستند و هم قادر به نمایش کل مجموعه داده ها هستند. دادههای ورودی اطلاعاتی هستند که در رسانههای دیجیتال مختلف در قالبهای مختلف ذخیره میشوند، مانند گزارش الکترونیکی یا جدول ارتباط دادهها. این داده ها ممکن است در پایگاه های داده متمرکز یا سیستم های سایت توزیع شده نگهداری شوند.