🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'Ship Mode': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'Customer ID': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'Customer Name': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'Segment': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'Country': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'City': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'State': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'Region': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'Product ID': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'Category': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'Sub-Category': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
placeholder_values
คอลัมน์ 'Product Name': พบ 302 ค่าที่ใช้แทน NaN ('-', 'N/A', 'ไม่มี') — ควรแปลงเป็น NaN (พบ 302 แถว, 2.9%)
แล้วไงต่อ? แทนที่ค่า placeholder ด้วย NaN ก่อนวิเคราะห์ (ใช้ coerce_numeric_column หรือ replace)
🟡 เตือน
คุณภาพ
พบปัญหาการ normalize ข้อความ
คอลัมน์ 'Product Name': พบปัญหาการ normalize ข้อความ (repeated-char spam) ทำให้สตริงที่ดูเหมือนกันแต่ไม่เท่ากันจริง (พบ 143 แถว, 1.4%)
แล้วไงต่อ? ใช้การ normalize ข้อความ (เช่น pythainlp.util.normalize) ก่อนวิเคราะห์
🟡 เตือน
โครงสร้าง
พบรูปแบบวันที่ปนกัน
คอลัมน์ 'Order ID': คอลัมน์วันที่มีรูปแบบที่ต่างกัน 5 รูปแบบ (CA-9999-9999, CA-9999-99999, CA-9999-999999, US-9999-99999, US-9999-999999) (10,290 รายการ, 99.9%)
แล้วไงต่อ? แปลงเป็นรูปแบบมาตรฐานเดียว — รูปแบบที่ปนกันทำให้การเรียงลำดับและ parse ผิดพลาด
🟡 เตือน
โครงสร้าง
พบรูปแบบวันที่ปนกัน
คอลัมน์ 'Order Date': คอลัมน์วันที่มีรูปแบบที่ต่างกัน 4 รูปแบบ (9/9/9999, 9/99/9999, 99/9/9999, 99/99/9999) (9,994 รายการ, 97.1%)
แล้วไงต่อ? แปลงเป็นรูปแบบมาตรฐานเดียว — รูปแบบที่ปนกันทำให้การเรียงลำดับและ parse ผิดพลาด
🟡 เตือน
โครงสร้าง
พบรูปแบบวันที่ปนกัน
คอลัมน์ 'Ship Date': คอลัมน์วันที่มีรูปแบบที่ต่างกัน 4 รูปแบบ (9/9/9999, 9/99/9999, 99/9/9999, 99/99/9999) (9,994 รายการ, 97.1%)
แล้วไงต่อ? แปลงเป็นรูปแบบมาตรฐานเดียว — รูปแบบที่ปนกันทำให้การเรียงลำดับและ parse ผิดพลาด
🟡 เตือน
ความผิดปกติ
พบค่าผิดปกติจากโมเดล (Isolation Forest)
คอลัมน์ 'Discount': Isolation Forest พบค่าผิดปกติ 1501 ค่า (สุ่มตัวอย่าง 10,000 แถว) (คะแนนผิดปกติสุด -0.205; ยิ่งต่ำยิ่งผิดปกติ) (1,501 รายการ, 15.0%)
แล้วไงต่อ? ค่าผิดปกติแบบ ML ใช้เสริมวิธีเชิงสถิติ — ควรตรวจสอบจุดที่ถูก flag ประกอบกัน
🟡 เตือน
ความผิดปกติ
พบค่าผิดปกติจากโมเดล (Isolation Forest)
คอลัมน์ 'Profit': Isolation Forest พบค่าผิดปกติ 1197 ค่า (สุ่มตัวอย่าง 10,000 แถว) (คะแนนผิดปกติสุด -0.333; ยิ่งต่ำยิ่งผิดปกติ) (1,197 รายการ, 12.0%)
แล้วไงต่อ? ค่าผิดปกติแบบ ML ใช้เสริมวิธีเชิงสถิติ — ควรตรวจสอบจุดที่ถูก flag ประกอบกัน
🟡 เตือน
ความผิดปกติ
พบค่าผิดปกติเชิงความหนาแน่น (LOF)
คอลัมน์ 'Sales': Local Outlier Factor พบค่าผิดปกติ 907 ค่า (สุ่มตัวอย่าง 10,000 แถว) (ค่าผิดปกติสุด -60.344; ยิ่งติดลบมากยิ่งผิดปกติ) (907 รายการ, 9.1%)
แล้วไงต่อ? LOF จับค่าผิดปกติเชิงความหนาแน่นเฉพาะถิ่น — มีประโยชน์เมื่อสถิติรวมมองไม่เห็น
🟡 เตือน
ความผิดปกติ
พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'Discount': พบค่าผิดปกติเชิงตัวเลข 718 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.72) (718 รายการ, 7.0%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง