پیشنویس:انتخاب نمونه
انتخاب نمونه (یا کاهش مجموعه داده، یا تراکم مجموعه داده) یک مرحله مهم پیش پردازش شده است که میتواند در بسیاری از وظایف یادگیری ماشین(یا داده کاوی) اعمال شود.[۱]
روش ها برای انتخاب نمونه میتواند برای کاهش مجموعه داده اصلی ، به یک حجم قابل مدیریت اعمال شود، که منجر به کاهش منابع محاسباتی لازم برای انجام فرایند یادگیری میشود. الگوریتم انتخاب نمونه را میتوان برای حذف نمونه های شلوغ، قبل از اعمال الگوریتم های یادگیری(یادگیری ماشین) به کار برد. این مرحله میتواند دقت در مسائل طبقهبندی را بهبود بخشد.
الگوریتم انتخاب نمونه باید زیرمجموعهای از کل دادههای موجود را ، برای دستیابی به هدف اصلی برنامه دادهکاوی (یا لیمینگ ماشین) شناسایی کند، طوری ک انگار از کل دادهها استفاده شده است. با توجه به این، نتیجه بهینه ی IS ، حداقل زیر مجموعه داده که می تواند یک کار را بدون افت عملکرد انجام دهد، در مقایسه با زمانی که کار با استفاده از کل داده های موجود انجام می شود خواهد بود.
بنابراین، هر استراتژی انتخاب نمونه باید با مبادله بین نرخ کاهش مجموعه داده و کیفیت طبقهبندی سروکار داشته باشد.
الگوریتم های انتخاب نمونه
ادبیات چندین الگوریتم مختلف را برای انتخاب نمونه ارائه می دهد. آنها را می توان با توجه به چندین معیار مختلف از یکدیگر متمایز کرد. با در نظر گرفتن این موضوع، الگوریتمهای انتخاب نمونه را میتوان در دو کلاس اصلی، بر اساس نمونههایی که انتخاب میکنند، دستهبندی کرد:
الگوریتم هایی که نمونه ها را در مرزهای کلاس ها حفظ می کنند و الگوریتم هایی که نمونه های داخلی کلاس ها را حفظ می کنند.
در دسته الگوریتم هایی که نمونه هایی را در مرزها انتخاب می کنند، می توان به DROP3[۲]، [۳]ICF و [۴]LSBo اشاره کرد. از سوی دیگر، در دسته الگوریتم هایی که نمونه های داخلی را انتخاب می کنند، می توان به ENN و LSSm اشاره کرد.
به طور کلی، الگوریتم هایی مانند ENN [۵]و LSSm ، برای حذف نمونه های مضر (شلوغ) از مجموعه داده استفاده می شود. آنها دادهها را مثل الگوریتمهایی که نمونههای مرزی را انتخاب میکنند کاهش نمیدهند، بلکه نمونههایی را در مرزها حذف میکنند که تأثیر منفی بر دادهکاوی دارند. آنها می توانند توسط سایر الگوریتم های انتخاب نمونه به عنوان یک مرحله برای فیلتر استفاده شوند. به عنوان مثال، الگوریتم ENN توسط DROP3 به عنوان اولین مرحله برای فیلتر کردن و الگوریتم LSSm توسط LSBo استفاده می شود.
همچنین گروه دیگری از الگوریتم ها وجود دارند که معیارهای انتخاب متفاوتی را اتخاذ می کنند. به عنوان مثال، الگوریتمهای LDIS[۶]، CDIS[۷] و XLDIS متراکمترین نمونهها را در یک همسایگی (محل) دلخواه انتخاب میکنند.نمونه های انتخاب شده می توانند شامل هر دو نمونه مرزی و داخلی باشند. الگوریتمهای LDIS و CDIS بسیار ساده هستند و زیر مجموعههایی را انتخاب میکنند که معرف مجموعه داده اصلی هستند. علاوه بر این، از آنجایی که آنها نمونه های نماینده را در هر کلاس به طور جداگانه جستجو می کنند، آنها (از نظر پیچیدگی زمانی و زمان اجرای موثر) نسبت به سایر الگوریتم ها مانند DROP3 و ICF سریعتر هستند.
علاوه بر این، دسته سومی از الگوریتمها وجود دارد که به جای انتخاب نمونههای واقعی از مجموعه داده، نمونههای اولیه (که میتوانند نمونههای مصنوعی باشند) را انتخاب میکنند.در این دسته می توان PSSA، PSDSP و PSSP را در نظر گرفت.
این سه الگوریتم مفهوم تقسیم بندی فضایی (یک ابرمستطیل) را برای شناسایی نمونههای مشابه و استخراج نمونههای اولیه برای هر مجموعه از نمونههای مشابه اتخاذ میکنند.
به طور کلی، این رویکردها می توانند برای انتخاب نمونه های واقعی از مجموعه داده ها اصلاح شوند. الگوریتم ISDSP رویکرد مشابهی را برای انتخاب نمونه های واقعی (به جای نمونه های اولیه) اتخاذ می کند.
انتخاب نمونه[ویرایش]
در انتظار بازبینی. لطفاً شکیبا باشید.
این ممکن است بیش از شش ماه زمان ببرد؛ چرا که بازبینی پیشنویسها هیچ ترتیب مشخصی ندارد. در حال حاضر ۳۲۵ مقالهٔ ثبتشده در انتظار برای بازبینی هستند.
جایی که میتوانید کمک بگیرید
چگونگی بهبود یک پیشنویس
همچنین میتوانید با کنکاش در ویکیپدیا:مقالههای برگزیده و ویکیپدیا:مقالههای خوب نمونههایی از بهترین نوشتارها با موضوعی مشابه مقالهٔ مورد نظر خودتان را بیابید. شانس بیشتر برای یک بازبینی سریع برای این که شانس بازبینی سریع مقالهتان بیشتر شود، پیشنویس خود را با استفاده از دکمهٔ پایین با برچسبهای ویکیپروژهٔ مرتبط برچسب بزنید. این کار به بازبینیکنندگان کمک میکند تا مطلع شوند که یک پیشنویس جدید با موضوع مورد علاقهٔ آنها ثبت شدهاست. برای مثال، اگر مقالهای دربارهٔ یک فضانورد زن نوشتهاید، میتوانید برچسبهای زندگینامه، فضانوردی و دانشمندان زن را بیفزایید. منابع برای ویرایشگران
ابزارهای بازبینی
|
- ↑ S. García, J. Luengo, and F. Herrera, Data preprocessing in data mining. Springer, 2015.
- ↑ D. R. Wilson and T. R. Martinez, Reduction techniques for instance-based learning algorithms, Machine learning, vol. 38, no. 3, pp. 257–286, 2000.
- ↑ H. Brighton and C. Mellish, Advances in instance selection for instance-based learning algorithms, Data mining and knowledge discovery, vol. 6, no. 2, pp. 153–172, 2002.
- ↑ Leyva, A. González, and R. Pérez, Three new instance selection methods based on local sets: A comparative study with several approaches from a bi-objective perspective, Pattern Recognition, vol. 48, no. 4, pp. 1523–1537, 2015
- ↑ D. L. Wilson, “Asymptotic properties of nearest neighbor rules using edited data,” Systems, Man and Cybernetics, IEEE Transactions on, no. 3, pp. 408–421, 1972.
- ↑ Carbonera, Joel Luis, and Mara Abel. A density-based approach for instance selection. IEEE 27th International Conference on Tools with Artificial Intelligence (ICTAI), 2015.
- ↑ Carbonera, Joel Luis, and Mara Abel. A novel density-based approach for instance selection. IEEE 28th International Conference on Tools with Artificial Intelligence (ICTAI), 2016.