🟡 เตือน
ความผิดปกติ
พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'stock': พบค่าผิดปกติเชิงตัวเลข 665 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.98) (665 รายการ, 4.4%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
🟡 เตือน
ความผิดปกติ
พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'sold_count': พบค่าผิดปกติเชิงตัวเลข 629 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.98) (629 รายการ, 4.2%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
🟡 เตือน
ความผิดปกติ
พบค่าผิดปกติเชิงความหนาแน่น (LOF)
คอลัมน์ 'price': Local Outlier Factor พบค่าผิดปกติ 255 ค่า (สุ่มตัวอย่าง 10,000 แถว) (ค่าผิดปกติสุด -6.419; ยิ่งติดลบมากยิ่งผิดปกติ) (255 รายการ, 2.5%)
แล้วไงต่อ? LOF จับค่าผิดปกติเชิงความหนาแน่นเฉพาะถิ่น — มีประโยชน์เมื่อสถิติรวมมองไม่เห็น
🟡 เตือน
ความผิดปกติ
พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'rating': พบค่าผิดปกติเชิงตัวเลข 291 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.91) (291 รายการ, 1.9%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
🟡 เตือน
การกระจาย
การกระจายเบ้มาก
คอลัมน์ 'price' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=2.00) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'price' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน
การกระจาย
การกระจายเบ้มาก
คอลัมน์ 'rating' มีการกระจายเบ้ซ้าย (หางยาวด้านน้อย) (skew=-1.91) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'rating' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน
การกระจาย
การกระจายเบ้มาก
คอลัมน์ 'sold_count' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=1.98) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'sold_count' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน
การกระจาย
การกระจายเบ้มาก
คอลัมน์ 'stock' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=1.98) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'stock' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน
อนุกรมเวลา
พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'price' มีค่าผิดปกติเฉพาะช่วง 50 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'price' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🟡 เตือน
อนุกรมเวลา
พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'rating' มีค่าผิดปกติเฉพาะช่วง 50 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'rating' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🟡 เตือน
อนุกรมเวลา
พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'sold_count' มีค่าผิดปกติเฉพาะช่วง 50 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'sold_count' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🟡 เตือน
อนุกรมเวลา
พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'stock' มีค่าผิดปกติเฉพาะช่วง 50 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'stock' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🟡 เตือน
อนุกรมเวลา
พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'discount_pct' มีค่าผิดปกติเฉพาะช่วง 50 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'discount_pct' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🔵 ข้อมูล
คุณภาพ
keyboard_layout_suspect
คอลัมน์ 'product_name': พบเซลล์ที่เป็นอักษรละตินเป็นส่วนใหญ่ในคอลัมน์ที่ส่วนใหญ่เป็นภาษาไทย อาจเกิดจากการพิมพ์ผิดแป้นพิมพ์ (ลืมสลับเป็นไทย เช่น 'l;ylfu' แทน 'สวัสดี') (พบ 588 แถว, 3.9%)
แล้วไงต่อ? ตรวจสอบเซลล์เหล่านี้ หากพิมพ์ผิดจริงให้แก้ด้วย clean.fix_keyboard_layout (แปลงเฉพาะเมื่อผลลัพธ์เป็นคำไทยจริง)
🔵 ข้อมูล
ความผิดปกติ
พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'price': พบค่าผิดปกติเชิงตัวเลข 580 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 2.00) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป (580 รายการ, 3.9%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
🔵 ข้อมูล
ข้อความ
พบความยาวข้อความผิดปกติ
คอลัมน์ 'product_name': ข้อความ 9 รายการมีความยาวผิดปกติ (เกิน 3σ จากความยาวเฉลี่ย 22.7) (9 รายการ, 0.1%)
แล้วไงต่อ? ตรวจหาข้อความที่ถูกตัด ว่างเปล่า หรือถูกต่อกันหลายรายการ
🔵 ข้อมูล
ข้อความ
คำศัพท์หลากหลายต่ำ (คำซ้ำเยอะ)
คอลัมน์ 'product_name' มีคำไม่ซ้ำเพียง 0% ของคำทั้งหมด (33 จาก 24,100 คำ) — มีคำซ้ำเยอะ
แล้วไงต่อ? ข้อความใน 'product_name' อาจเป็นเทมเพลต/ข้อความซ้ำ ๆ — ตรวจสอบว่ามีคุณค่าต่อการวิเคราะห์เนื้อหาเพียงพอหรือไม่
🔵 ข้อมูล
การกระจาย
อาจมี 2 กลุ่มข้อมูล (bimodal)
คอลัมน์ 'discount_pct' มีลักษณะการแจกแจงแบบ 2 จุดยอด — อาจมีกลุ่มย่อย 2 กลุ่มปนกัน
แล้วไงต่อ? พิจารณาแยกวิเคราะห์ 'discount_pct' ตามกลุ่ม หรือหาตัวแปรที่อธิบายการแบ่งกลุ่ม
🔵 ข้อมูล
อนุกรมเวลา
ไม่พบแนวโน้มหรือ seasonality
คอลัมน์ 'price' ไม่มีแนวโน้มหรือรูปแบบตามฤดูกาลชัดเจน — อาจเป็น random walk/ข้อมูลนิ่ง
แล้วไงต่อ? การพยากรณ์ 'price' อาจใช้วิธีพื้นฐาน (naive/mean) เป็นฐานเปรียบเทียบ
🔵 ข้อมูล
อนุกรมเวลา
ไม่พบแนวโน้มหรือ seasonality
คอลัมน์ 'rating' ไม่มีแนวโน้มหรือรูปแบบตามฤดูกาลชัดเจน — อาจเป็น random walk/ข้อมูลนิ่ง
แล้วไงต่อ? การพยากรณ์ 'rating' อาจใช้วิธีพื้นฐาน (naive/mean) เป็นฐานเปรียบเทียบ
pattern_outlier
พบ outlier 272 แถวในคอลัมน์ 'price' (z-score ≥ 3.0)
จัดกลุ่มตาม: price · ตัววัด: price · outlier
คอลัมน์ 'price' มี 272 ค่าที่เป็น outlier (1.8% ของข้อมูล, max z-score=7.9, mean=2,056.2, std=2,010.8)
แล้วไงต่อ? ตรวจสอบ outlier ในคอลัมน์ 'price' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล