🟡 เตือน
คุณภาพ
พบปัญหาการ normalize ข้อความ
คอลัมน์ 'shop_name': พบปัญหาการ normalize ข้อความ (repeated-char spam) ทำให้สตริงที่ดูเหมือนกันแต่ไม่เท่ากันจริง (พบ 1 แถว, 0.5%)
แล้วไงต่อ? ใช้การ normalize ข้อความ (เช่น pythainlp.util.normalize) ก่อนวิเคราะห์
🟡 เตือน
ความผิดปกติ
พบค่าผิดปกติจากโมเดล (Isolation Forest)
คอลัมน์ 'monthly_sales': Isolation Forest พบค่าผิดปกติ 24 ค่า (คะแนนผิดปกติสุด -0.415; ยิ่งต่ำยิ่งผิดปกติ) (24 รายการ, 12.0%)
แล้วไงต่อ? ค่าผิดปกติแบบ ML ใช้เสริมวิธีเชิงสถิติ — ควรตรวจสอบจุดที่ถูก flag ประกอบกัน
🟡 เตือน
ความผิดปกติ
พบค่าผิดปกติเชิงความหนาแน่น (LOF)
คอลัมน์ 'monthly_sales': Local Outlier Factor พบค่าผิดปกติ 23 ค่า (ค่าผิดปกติสุด -38.122; ยิ่งติดลบมากยิ่งผิดปกติ) (23 รายการ, 11.5%)
แล้วไงต่อ? LOF จับค่าผิดปกติเชิงความหนาแน่นเฉพาะถิ่น — มีประโยชน์เมื่อสถิติรวมมองไม่เห็น
🟡 เตือน
การกระจาย
การกระจายเบ้มาก
คอลัมน์ 'monthly_sales' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=12.16) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'monthly_sales' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน
อนุกรมเวลา
พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'monthly_sales' มีค่าผิดปกติเฉพาะช่วง 1 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'monthly_sales' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🟡 เตือน
อนุกรมเวลา
พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'customer_count' มีค่าผิดปกติเฉพาะช่วง 2 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'customer_count' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🔵 ข้อมูล
ความผิดปกติ
พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'monthly_sales': พบค่าผิดปกติเชิงตัวเลข 12 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 12.16) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป (12 รายการ, 6.0%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
🔵 ข้อมูล
ข้อความ
คอลัมน์ข้อความมีค่าไม่ซ้ำสูง
คอลัมน์ 'shop_name' มีค่าไม่ซ้ำ 100% (200 จาก 200 แถว) — อาจเป็น ID หรือข้อความอิสระ ไม่ใช่ตัวแปรหมวดหมู่
แล้วไงต่อ? ตรวจสอบว่าคอลัมน์ 'shop_name' ควรใช้เป็น ID/ข้อความอิสระ และไม่นำไปจัดกลุ่ม (groupby) เป็นหมวดหมู่
🔵 ข้อมูล
ข้อความ
คำศัพท์หลากหลายต่ำ (คำซ้ำเยอะ)
คอลัมน์ 'category' มีคำไม่ซ้ำเพียง 2% ของคำทั้งหมด (11 จาก 538 คำ) — มีคำซ้ำเยอะ
แล้วไงต่อ? ข้อความใน 'category' อาจเป็นเทมเพลต/ข้อความซ้ำ ๆ — ตรวจสอบว่ามีคุณค่าต่อการวิเคราะห์เนื้อหาเพียงพอหรือไม่
🔵 ข้อมูล
การกระจาย
การกระจายหางหนัก (heavy tail)
คอลัมน์ 'monthly_sales' มีหางหนัก (kurtosis=161.75) — มีค่าสุดโต่ง (outlier) มากกว่าปกติ
แล้วไงต่อ? ตรวจสอบค่าสุดโต่งของ 'monthly_sales' และพิจารณาวิธีที่ทนต่อ outlier (median/robust stats)
🔵 ข้อมูล
อนุกรมเวลา
ไม่พบแนวโน้มหรือ seasonality
คอลัมน์ 'monthly_sales' ไม่มีแนวโน้มหรือรูปแบบตามฤดูกาลชัดเจน — อาจเป็น random walk/ข้อมูลนิ่ง
แล้วไงต่อ? การพยากรณ์ 'monthly_sales' อาจใช้วิธีพื้นฐาน (naive/mean) เป็นฐานเปรียบเทียบ
🔵 ข้อมูล
อนุกรมเวลา
ไม่พบแนวโน้มหรือ seasonality
คอลัมน์ 'customer_count' ไม่มีแนวโน้มหรือรูปแบบตามฤดูกาลชัดเจน — อาจเป็น random walk/ข้อมูลนิ่ง
แล้วไงต่อ? การพยากรณ์ 'customer_count' อาจใช้วิธีพื้นฐาน (naive/mean) เป็นฐานเปรียบเทียบ
🔵 ข้อมูล
เชิงธุรกิจ
กลุ่ม 'กรุงเทพมหานคร' โดดเด่นใน 'customer_count' (ตาม 'province')
กลุ่ม 'กรุงเทพมหานคร' มีผลรวม 'customer_count' สูงสุดที่ 177,377.0 — สูงกว่ากลุ่มรอง 3.3 เท่า (จัดกลุ่มตาม 'province')
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'กรุงเทพมหานคร' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
🔵 ข้อมูล
เชิงธุรกิจ
กลุ่ม 'เชียงใหม่' โดดเด่นใน 'monthly_sales' (ตาม 'province')
กลุ่ม 'เชียงใหม่' มีค่าเฉลี่ย 'monthly_sales' สูงสุดที่ 236,369.1 — สูงกว่ากลุ่มรอง 1.6 เท่า (จัดกลุ่มตาม 'province')
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'เชียงใหม่' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
🔵 ข้อมูล
เชิงธุรกิจ
กลุ่ม 'กรุงเทพมหานคร' โดดเด่นใน จำนวนข้อมูล (ตาม 'province')
กลุ่ม 'กรุงเทพมหานคร' มีจำนวนข้อมูลสูงสุดที่ 100 แถว — มากกว่ากลุ่มรอง 2.8 เท่า (จัดกลุ่มตาม 'province')
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'กรุงเทพมหานคร' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
กลุ่มโดดเด่น
กลุ่ม 'กรุงเทพมหานคร' โดดเด่นใน 'customer_count' (ตาม 'province')
จัดกลุ่มตาม: province · ตัววัด: customer_count · sum
กลุ่ม 'กรุงเทพมหานคร' มีผลรวม 'customer_count' สูงสุดที่ 177,377.0 — สูงกว่ากลุ่มรอง 3.3 เท่า (จัดกลุ่มตาม 'province')
กราฟนี้บอกอะไรเรา

| กลุ่ม | ค่า |
|---|
| กรุงเทพมหานคร | 177,377.0 |
| เชียงใหม่ | 53,662.0 |
| ชลบุรี | 37,148.0 |
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'กรุงเทพมหานคร' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
กลุ่มโดดเด่น
กลุ่ม 'เชียงใหม่' โดดเด่นใน 'monthly_sales' (ตาม 'province')
จัดกลุ่มตาม: province · ตัววัด: monthly_sales · mean
กลุ่ม 'เชียงใหม่' มีค่าเฉลี่ย 'monthly_sales' สูงสุดที่ 236,369.1 — สูงกว่ากลุ่มรอง 1.6 เท่า (จัดกลุ่มตาม 'province')
กราฟนี้บอกอะไรเรา

| กลุ่ม | ค่า |
|---|
| เชียงใหม่ | 236,369.08 |
| ภูเก็ต | 143,762.29 |
| กรุงเทพมหานคร | 137,257.04 |
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'เชียงใหม่' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
กลุ่มโดดเด่น
กลุ่ม 'กรุงเทพมหานคร' โดดเด่นใน 'monthly_sales' (ตาม 'province')
จัดกลุ่มตาม: province · ตัววัด: monthly_sales · sum
กลุ่ม 'กรุงเทพมหานคร' มีผลรวม 'monthly_sales' สูงสุดที่ 13,725,704.1 — สูงกว่ากลุ่มรอง 1.6 เท่า (จัดกลุ่มตาม 'province')
กราฟนี้บอกอะไรเรา

| กลุ่ม | ค่า |
|---|
| กรุงเทพมหานคร | 13,725,704.07 |
| เชียงใหม่ | 8,509,286.89 |
| ภูเก็ต | 3,450,294.93 |
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'กรุงเทพมหานคร' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ