การใช้การจัดประเภทในการทำเหมืองข้อมูล

การจำแนกเป็นเทคนิคการทำเหมืองข้อมูลที่กำหนดหมวดหมู่ให้กับชุดข้อมูลเพื่อช่วยในการคาดการณ์และการวิเคราะห์ที่แม่นยำยิ่งขึ้น เรียกอีกอย่างว่าบางครั้งเรียกว่า a ต้นไม้การตัดสินใจ การจำแนกเป็นหนึ่งในหลายวิธีที่จะทำให้การวิเคราะห์ชุดข้อมูลขนาดใหญ่มีประสิทธิภาพมาก

ทำไมต้องจัดหมวดหมู่?

ฐานข้อมูลขนาดใหญ่มากกำลังกลายเป็นบรรทัดฐานในโลกปัจจุบันของ ข้อมูลใหญ่ . ลองจินตนาการถึงฐานข้อมูลที่มีเทราไบต์หลายเทราไบต์ - เทราไบต์เป็นหนึ่ง ล้านล้าน ไบต์ของข้อมูล

Facebook เพียงครั้งเดียว crunches 600 terabytes ของข้อมูลใหม่ทุกวันเดียว (ณ 2014 เป็นครั้งสุดท้ายที่รายงานรายละเอียดเหล่านี้) ความท้าทายหลักของข้อมูลขนาดใหญ่คือการทำความเข้าใจเรื่องนี้

และปริมาตรที่แท้จริงไม่ใช่ปัญหาเฉพาะ: ข้อมูลขนาดใหญ่ยังมีแนวโน้มที่จะมีความหลากหลายไม่มีโครงสร้างและมีการเปลี่ยนแปลงอย่างรวดเร็ว พิจารณาข้อมูลเสียงและวิดีโอโพสต์สื่อสังคมออนไลน์ข้อมูล 3D หรือข้อมูลภูมิสารสนเทศ ข้อมูลประเภทนี้ไม่สามารถจัดหมวดหมู่หรือจัดระเบียบได้ง่าย

เพื่อตอบสนองความท้าทายนี้ได้มีการพัฒนาวิธีการต่างๆสำหรับการดึงข้อมูลที่มีประโยชน์โดยอัตโนมัติ การจัดหมวดหมู่ .

วิธีการจำแนกประเภท

เมื่อต้องขยับไปไกลเกินไปในการพูดคุยทางเทคนิคลองหารือกันว่าการจัดหมวดหมู่ทำงานอย่างไร เป้าหมายคือการสร้างชุดของกฎการจัดหมวดหมู่ที่จะตอบคำถามตั้งคำถามหรือทำนายพฤติกรรม ในการเริ่มต้นชุดข้อมูลการฝึกอบรมจะได้รับการพัฒนาขึ้นโดยมีชุดของคุณลักษณะบางอย่างรวมทั้งผลลัพธ์ที่เป็นไปได้

งานของอัลกอริทึมการจัดหมวดหมู่คือการค้นพบว่าแอตทริบิวต์ชุดนั้นมีข้อสรุปอย่างไร

สถานการณ์: บางที บริษัท บัตรเครดิตกำลังพยายามหาว่าลูกค้ารายใดควรได้รับข้อเสนอพิเศษเกี่ยวกับบัตรเครดิต

นี่อาจเป็นชุดของข้อมูลการฝึกอบรม:

**ข้อมูลการฝึกอบรม**

ชื่อ	อายุ	เพศ	รายได้ต่อปี	ข้อเสนอบัตรเครดิต
John Doe	25	M	$39,500	ไม่
Jane Doe	56	F	$125,000	ใช่

คอลัมน์ "predictor" อายุ , เพศ , และ รายได้ต่อปี กำหนดค่าของ "แอตทริบิวต์ predictor" ข้อเสนอบัตรเครดิต . ในชุดฝึกอบรมจะรู้จักแอตทริบิวต์ predictor อัลกอริทึมการจัดหมวดหมู่จะพยายามกำหนดค่าแอตทริบิวต์ predictor: ความสัมพันธ์ระหว่างตัวทำนายกับการตัดสินใจมีความสัมพันธ์กันอย่างไร? จะพัฒนาชุดของกฎการคาดการณ์โดยปกติคำสั่ง IF / THEN เช่น

IF (อายุ> 18 หรืออายุ <75) และรายได้ต่อปี> 40,000 THEN Credit Card Offer = yes

เห็นได้ชัดว่านี่เป็นตัวอย่างง่ายๆและอัลกอริทึมจะต้องมีการสุ่มตัวอย่างข้อมูลที่ใหญ่กว่าข้อมูลสองระเบียนที่แสดงไว้ที่นี่ นอกจากนี้กฎการคาดการณ์จะมีความซับซ้อนมากขึ้นรวมถึงกฎย่อยเพื่อจับรายละเอียดแอตทริบิวต์

ขั้นถัดไปอัลกอริทึมจะได้รับ "ชุดคำทำนาย" ของข้อมูลเพื่อวิเคราะห์ แต่ชุดนี้ไม่มีแอตทริบิวต์การคาดคะเน (หรือการตัดสินใจ):

**ข้อมูล Predictor**

ชื่อ	อายุ	เพศ	รายได้ต่อปี	ข้อเสนอบัตรเครดิต
แจ็คฟรอสต์	42	M	$88,000
Mary Murray	16	F	$0

ข้อมูล predictor นี้ช่วยในการประมาณความถูกต้องของกฎการคาดคะเนและกฎจะถูกปรับแต่งจนกว่าผู้พัฒนาจะพิจารณาการคาดการณ์ที่มีประสิทธิภาพและเป็นประโยชน์

ตัวอย่างการจัดประเภทวันแล้ววันเล่า

การจำแนกประเภทและเทคนิคการทำเหมืองข้อมูลอื่น ๆ อยู่เบื้องหลังประสบการณ์ที่เรามีต่อวันเป็นอย่างมาก

การคาดการณ์สภาพอากาศอาจใช้การจัดหมวดหมู่เพื่อรายงานว่าวันนี้จะมีฝนตกแดดหรือเมฆมาก แพทย์อาจวิเคราะห์สภาวะสุขภาพเพื่อทำนายผลทางการแพทย์ ประเภทของวิธีการจำแนกประเภท Naive Bayesian ใช้ความน่าจะเป็นไปได้ในการจัดประเภทอีเมลสแปม จากการตรวจสอบการทุจริตต่อข้อเสนอของผลิตภัณฑ์การจัดหมวดหมู่อยู่เบื้องหลังทุกวันเพื่อวิเคราะห์ข้อมูลและคาดการณ์การผลิต

การใช้การจัดประเภทในการทำเหมืองข้อมูล

:

ทำไมต้องจัดหมวดหมู่?

วิธีการจำแนกประเภท

ตัวอย่างการจัดประเภทวันแล้ววันเล่า

ตัวเลือกของบรรณาธิการ

เราทดสอบครีมชีสที่ไม่ใช่นม 5 ชนิด คุณจึงไม่ต้องทำเอง

เราทดสอบครีมชีสที่ไม่ใช่นม 5 ชนิด คุณจึงไม่ต้องทำเอง

จะหาอาหารเม็กซิกันมังสวิรัติที่ดีที่สุดในนิวยอร์กซิตี้ได้ที่ไหน

5 สิ่งที่ฉันเรียนรู้ส่วนใหญ่มาจากพืชเป็นเวลาสามปี

20 เครื่องทำกาแฟที่ไม่ใช่นมและมังสวิรัติที่ดีที่สุด

บทความที่น่าสนใจ

เราทดสอบครีมชีสที่ไม่ใช่นม 5 ชนิด คุณจึงไม่ต้องทำเอง

จะหาอาหารเม็กซิกันมังสวิรัติที่ดีที่สุดในนิวยอร์กซิตี้ได้ที่ไหน

5 สิ่งที่ฉันเรียนรู้ส่วนใหญ่มาจากพืชเป็นเวลาสามปี

20 เครื่องทำกาแฟที่ไม่ใช่นมและมังสวิรัติที่ดีที่สุด

แนะนำ

เราทดสอบครีมชีสที่ไม่ใช่นม 5 ชนิด คุณจึงไม่ต้องทำเอง

จะหาอาหารเม็กซิกันมังสวิรัติที่ดีที่สุดในนิวยอร์กซิตี้ได้ที่ไหน

5 สิ่งที่ฉันเรียนรู้ส่วนใหญ่มาจากพืชเป็นเวลาสามปี

20 เครื่องทำกาแฟที่ไม่ใช่นมและมังสวิรัติที่ดีที่สุด