پیش‌نویس:انتخاب نمونه

انتخاب نمونه (یا کاهش مجموعه داده، یا تراکم مجموعه داده) یک مرحله مهم پیش پردازش شده است که میتواند در بسیاری از وظایف یادگیری ماشین(یا داده کاوی) اعمال شود.^[۱]

روش ها برای انتخاب نمونه میتواند برای کاهش مجموعه داده اصلی ، به یک حجم قابل مدیریت اعمال شود، که منجر به کاهش منابع محاسباتی لازم برای انجام فرایند یادگیری میشود. الگوریتم انتخاب نمونه را میتوان برای حذف نمونه های شلوغ، قبل از اعمال الگوریتم های یادگیری(یادگیری ماشین) به کار برد. این مرحله می‌تواند دقت در مسائل طبقه‌بندی را بهبود بخشد.

الگوریتم انتخاب نمونه باید زیرمجموعه‌ای از کل داده‌های موجود را ، برای دستیابی به هدف اصلی برنامه داده‌کاوی (یا لیمینگ ماشین) شناسایی کند، طوری ک انگار از کل داده‌ها استفاده شده است. با توجه به این، نتیجه بهینه ی IS ، حداقل زیر مجموعه داده که می تواند یک کار را بدون افت عملکرد انجام دهد، در مقایسه با زمانی که کار با استفاده از کل داده های موجود انجام می شود خواهد بود.

بنابراین، هر استراتژی انتخاب نمونه باید با مبادله بین نرخ کاهش مجموعه داده و کیفیت طبقه‌بندی سروکار داشته باشد.

الگوریتم های انتخاب نمونه

ادبیات چندین الگوریتم مختلف را برای انتخاب نمونه ارائه می دهد. آنها را می توان با توجه به چندین معیار مختلف از یکدیگر متمایز کرد. با در نظر گرفتن این موضوع، الگوریتم‌های انتخاب نمونه را می‌توان در دو کلاس اصلی، بر اساس نمونه‌هایی که انتخاب می‌کنند، دسته‌بندی کرد:

الگوریتم هایی که نمونه ها را در مرزهای کلاس ها حفظ می کنند و الگوریتم هایی که نمونه های داخلی کلاس ها را حفظ می کنند.

در دسته الگوریتم هایی که نمونه هایی را در مرزها انتخاب می کنند، می توان به DROP3^[۲]، ^[۳]ICF و ^[۴]LSBo اشاره کرد. از سوی دیگر، در دسته الگوریتم هایی که نمونه های داخلی را انتخاب می کنند، می توان به ENN و LSSm اشاره کرد.

به طور کلی، الگوریتم هایی مانند ENN ^[۵]و LSSm ، برای حذف نمونه های مضر (شلوغ) از مجموعه داده استفاده می شود. آنها داده‌ها را مثل الگوریتم‌هایی که نمونه‌های مرزی را انتخاب می‌کنند کاهش نمی‌دهند، بلکه نمونه‌هایی را در مرزها حذف می‌کنند که تأثیر منفی بر داده‌کاوی دارند. آنها می توانند توسط سایر الگوریتم های انتخاب نمونه به عنوان یک مرحله برای فیلتر استفاده شوند. به عنوان مثال، الگوریتم ENN توسط DROP3 به عنوان اولین مرحله برای فیلتر کردن و الگوریتم LSSm توسط LSBo استفاده می شود.

همچنین گروه دیگری از الگوریتم ها وجود دارند که معیارهای انتخاب متفاوتی را اتخاذ می کنند. به عنوان مثال، الگوریتم‌های LDIS^[۶]، CDIS^[۷] و XLDIS متراکم‌ترین نمونه‌ها را در یک همسایگی (محل) دلخواه انتخاب می‌کنند.نمونه های انتخاب شده می توانند شامل هر دو نمونه مرزی و داخلی باشند. الگوریتم‌های LDIS و CDIS بسیار ساده هستند و زیر مجموعه‌هایی را انتخاب می‌کنند که معرف مجموعه داده اصلی هستند. علاوه بر این، از آنجایی که آنها نمونه های نماینده را در هر کلاس به طور جداگانه جستجو می کنند، آنها (از نظر پیچیدگی زمانی و زمان اجرای موثر) نسبت به سایر الگوریتم ها مانند DROP3 و ICF سریعتر هستند.

علاوه بر این، دسته سومی از الگوریتم‌ها وجود دارد که به جای انتخاب نمونه‌های واقعی از مجموعه داده، نمونه‌های اولیه (که می‌توانند نمونه‌های مصنوعی باشند) را انتخاب می‌کنند.در این دسته می توان PSSA، PSDSP و PSSP را در نظر گرفت.

این سه الگوریتم مفهوم تقسیم بندی فضایی (یک ابرمستطیل) را برای شناسایی نمونه‌های مشابه و استخراج نمونه‌های اولیه برای هر مجموعه از نمونه‌های مشابه اتخاذ می‌کنند.

به طور کلی، این رویکردها می توانند برای انتخاب نمونه های واقعی از مجموعه داده ها اصلاح شوند. الگوریتم ISDSP رویکرد مشابهی را برای انتخاب نمونه های واقعی (به جای نمونه های اولیه) اتخاذ می کند.

انتخاب نمونه[ویرایش]

در انتظار بازبینی. لطفاً شکیبا باشید.

این ممکن است بیش از شش ماه زمان ببرد؛ چرا که بازبینی پیش‌نویس‌ها هیچ ترتیب مشخصی ندارد. در حال حاضر ۳۲۵ مقالهٔ ثبت‌شده در انتظار برای بازبینی هستند.

اگر مقالهٔ ثبت‌شده تأیید شده‌است، این صفحه به فضای نام مقاله منتقل خواهد شد.
اگر مقالهٔ ثبت‌شده رد شده‌است، دلیل آن در اینجا درج خواهد شد.
در عین حال، می‌توانید با انجام ویرایش‌های معمول، به بهبود این مقاله ادامه دهید.

جایی که می‌توانید کمک بگیرید

اگر برای ویرایش یا ثبت‌کردن پیش‌نویس خود نیاز به کمک دارید، لطفاً سؤال خود را بپرسید در میز کمک مبا از ویرایشگران باتجربه. از این میز کمک فقط برای درخواست کمک در ویرایش یا ثبت پیش‌نویس استفاده کنید، نه برای درخواست بازبینی.
اگر نیازمند بازخورد دربارهٔ پیش‌نویس‌تان هستید، یا اینکه فرایند بازبینی خیلی طولانی شده‌است، می‌توانید در صفحهٔ بحث یک ویکی‌پروژه مرتبط درخواست کمک کنید. برخی ویکی‌پروژه‌ها از سایر ویکی‌پروژه‌ها فعال‌تر هستند و در نتیجه نمی‌توان دریافت پاسخ سریع را تضمین کرد.

چگونگی بهبود یک پیش‌نویس

راهنما:همکاری – بررسی اجمالی ابتدایی پیرامون چگونگی ویرایش در ویکی‌پدیا.
راهنما:نشانه‌گذاری ویکی – چگونگی استفاده از نشانه‌گذاری‌ها
ویکی‌پدیا:شیوه ارجاع به منابع – چگونگی درج ارجاعات و منابع
ویکی‌پدیا:توسعه مقاله – چگونه مقالهٔ خود را توسعه دهید
ویکی‌پدیا:راهنمایی برای نوشتن مقاله‌های بهتر – چگونه مقالهٔ خود را بهبود دهید
ویکی‌پدیا:تأییدپذیری – مطمئن شوید که مقالهٔ شما دربردارندهٔ منابع معتبر و مستقل است

همچنین می‌توانید با کنکاش در ویکی‌پدیا:مقاله‌های برگزیده و ویکی‌پدیا:مقاله‌های خوب نمونه‌هایی از بهترین نوشتارها با موضوعی مشابه مقالهٔ مورد نظر خودتان را بیابید.

شانس بیشتر برای یک بازبینی سریع

برای این که شانس بازبینی سریع مقاله‌تان بیشتر شود، پیش‌نویس خود را با استفاده از دکمهٔ پایین با برچسب‌های ویکی‌پروژهٔ مرتبط برچسب بزنید. این کار به بازبینی‌کنندگان کمک می‌کند تا مطلع شوند که یک پیش‌نویس جدید با موضوع مورد علاقهٔ آن‌ها ثبت شده‌است. برای مثال، اگر مقاله‌ای دربارهٔ یک فضانورد زن نوشته‌اید، می‌توانید برچسب‌های زندگی‌نامه، فضانوردی و دانشمندان زن را بیفزایید.

به پیش‌نویس خود یک برچسب بیفزایید

منابع برای ویرایشگران

یافتن منابع: گوگل (کتاب‌ها · اخبار · روزنامه‌ها · آکادمیک · تصاویر آزاد · ارجاعات وپ) · اخبار آزاد · جی‌استور · نیویورک تایمز · کتابخانه وپ
ابزارهای ساده: ربات یادکرد (راهنما) | پیشرفته: تعمیر پیوندهای ابهام‌دار · تعمیر پیوندهای عریان · تعمیر پیوندهای خراب

ابزارهای بازبینی

راهنما · ⋈ · انتخاب نمونه (بحث: + زندگی‌نامه) · (سیاهه) · گزارش نقض حق تکثیر · reFill · ربات یادکرد · (جستجوی: گوگل، بینگ، ویکی‌پدیا) · ثبت‌شده در ۲ سال پیش توسط Aminostami8113 (بحث: ن ر +) · آخرین ویرایش در ۲ سال پیش توسط Aminostami8113

↑ S. García, J. Luengo, and F. Herrera, Data preprocessing in data mining. Springer, 2015.
↑ D. R. Wilson and T. R. Martinez, Reduction techniques for instance-based learning algorithms, Machine learning, vol. 38, no. 3, pp. 257–286, 2000.
↑ H. Brighton and C. Mellish, Advances in instance selection for instance-based learning algorithms, Data mining and knowledge discovery, vol. 6, no. 2, pp. 153–172, 2002.
↑ Leyva, A. González, and R. Pérez, Three new instance selection methods based on local sets: A comparative study with several approaches from a bi-objective perspective, Pattern Recognition, vol. 48, no. 4, pp. 1523–1537, 2015
↑ D. L. Wilson, “Asymptotic properties of nearest neighbor rules using edited data,” Systems, Man and Cybernetics, IEEE Transactions on, no. 3, pp. 408–421, 1972.
↑ Carbonera, Joel Luis, and Mara Abel. A density-based approach for instance selection. IEEE 27th International Conference on Tools with Artificial Intelligence (ICTAI), 2015.
↑ Carbonera, Joel Luis, and Mara Abel. A novel density-based approach for instance selection. IEEE 28th International Conference on Tools with Artificial Intelligence (ICTAI), 2016.

[1] S. García, J. Luengo, and F. Herrera, Data preprocessing in data mining. Springer, 2015.

[2] D. R. Wilson and T. R. Martinez, Reduction techniques for instance-based learning algorithms, Machine learning, vol. 38, no. 3, pp. 257–286, 2000.

[3] H. Brighton and C. Mellish, Advances in instance selection for instance-based learning algorithms, Data mining and knowledge discovery, vol. 6, no. 2, pp. 153–172, 2002.

[4] Leyva, A. González, and R. Pérez, Three new instance selection methods based on local sets: A comparative study with several approaches from a bi-objective perspective, Pattern Recognition, vol. 48, no. 4, pp. 1523–1537, 2015

[5] D. L. Wilson, “Asymptotic properties of nearest neighbor rules using edited data,” Systems, Man and Cybernetics, IEEE Transactions on, no. 3, pp. 408–421, 1972.

[6] Carbonera, Joel Luis, and Mara Abel. A density-based approach for instance selection. IEEE 27th International Conference on Tools with Artificial Intelligence (ICTAI), 2015.

[7] Carbonera, Joel Luis, and Mara Abel. A novel density-based approach for instance selection. IEEE 28th International Conference on Tools with Artificial Intelligence (ICTAI), 2016.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]