รายงานวิเคราะห์ข้อมูล ThaiEDA

สร้างโดย ThaiEDA v2.0.0 · 15000 จำนวนแถว × 11 จำนวนคอลัมน์
วิธีอ่านรายงานนี้: เริ่มจากบทสรุปด้านบน แล้วดูสิ่งที่ควรทำก่อน แล้วค่อยเจาะรายละเอียดแต่ละคอลัมน์
ประเภทข้อมูลที่ตรวจพบ
ข้อมูลทะเบียน/มาสเตอร์
ข้อมูลนี้เป็นรายการ entity พร้อมคุณลักษณะ ควรเน้นความครบถ้วนและความไม่ซ้ำของระเบียน
ภาษาข้อมูลที่ตรวจพบ ผสม (ไทย + อังกฤษ)
ผลกระทบต่อการวิเคราะห์: ข้อมูลผสมไทย+อังกฤษ ควรตรวจคุณภาพและทำความสะอาดทั้งสองภาษา
ควรดูอะไรเป็นพิเศษ
  • ตรวจ completeness ของ attribute สำคัญ
  • ตรวจ uniqueness ของรหัส/คีย์หลัก
  • ดู category distribution เพื่อหา master data ที่ผิดรูปแบบหรือกระจุกตัว
  • ตรวจทั้งกติกาภาษาไทยและอังกฤษ เพราะข้อมูลมีสองภาษา
  • แยกคอลัมน์ไทย/อังกฤษก่อนทำ text analytics หรือ tokenization
  • ตรวจ พ.ศ., เลขไทย, encoding และรูปแบบวันที่ทั้งสองภาษา

คำแนะนำเฉพาะข้อมูลไทย

  • ตรวจทั้งกติกาภาษาไทยและอังกฤษ เพราะข้อมูลมีสองภาษา
  • แยกคอลัมน์ไทย/อังกฤษก่อนทำ text analytics หรือ tokenization
  • ตรวจ พ.ศ., เลขไทย, encoding และรูปแบบวันที่ทั้งสองภาษา

2. สำคัญที่สุด

1
🟡 เตือน stock
stock 4.4% อยู่ไกลจากช่วงปกติ — ควรแยกว่าเป็นเคสพิเศษจริงหรือข้อมูลผิดก่อนใช้ในโมเดล/สรุปผล
665 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 1.98).
ผลกระทบ 4.43%
2
🟡 เตือน sold_count
sold_count 4.2% อยู่ไกลจากช่วงปกติ — ควรแยกว่าเป็นเคสพิเศษจริงหรือข้อมูลผิดก่อนใช้ในโมเดล/สรุปผล
629 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 1.98).
ผลกระทบ 4.19%
3
🟡 เตือน price
price 2.5% มีค่าผิดปกติ — ควรตรวจก่อนนำไป forecast คำนวณยอดรวม หรือวัด performance
Local Outlier Factor flagged 255 outlier(s) on a 10,000-row sample (most anomalous factor -6.419; more negative = more anomalous).
ผลกระทบ 2.55%
4
🟡 เตือน rating
rating 1.9% อยู่ไกลจากช่วงปกติ — ควรแยกว่าเป็นเคสพิเศษจริงหรือข้อมูลผิดก่อนใช้ในโมเดล/สรุปผล
291 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 1.91).
ผลกระทบ 1.94%
5
🔵 ข้อมูล price
price 3.9% มีค่าผิดปกติ — ควรตรวจก่อนนำไป forecast คำนวณยอดรวม หรือวัด performance
580 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 2.00). Heavy-tailed distributions often contain valid business extremes; treat this as context, not automatically as a data defect.
ผลกระทบ 3.87%
บทสรุปผู้บริหาร
ข้อมูลใช้ต่อได้ แต่ควรตรวจจุดที่เตือนก่อนวิเคราะห์เชิงลึก
ชุดข้อมูลมี 15,000 แถว × 11 คอลัมน์ พบปัญหาคุณภาพ 1 ข้อ พบความผิดปกติ 6 จุดใน 5 คอลัมน์ วิเคราะห์อนุกรมเวลา 5 คอลัมน์ ข้อมูลใช้งานได้ แต่ควรตรวจสอบจุดที่เตือนก่อนวิเคราะห์เชิงลึก
  • มีข้อมูล 15,000 แถว × 11 คอลัมน์
  • ค่าว่าง 0.00% ของข้อมูลทั้งหมด
  • แถวซ้ำ 0 แถว (0.00%)
  • พบข้อค้นพบที่ควรดู 27 เรื่อง
  • มี insight เชิงธุรกิจ 4 เรื่อง

สิ่งที่ควรทำก่อน

1
🟡 เตือน พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'stock': พบค่าผิดปกติเชิงตัวเลข 665 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.98) (665 รายการ, 4.4%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
2
🟡 เตือน พบค่าผิดปกติเชิงความหนาแน่น (LOF)
คอลัมน์ 'price': Local Outlier Factor พบค่าผิดปกติ 255 ค่า (สุ่มตัวอย่าง 10,000 แถว) (ค่าผิดปกติสุด -6.419; ยิ่งติดลบมากยิ่งผิดปกติ) (255 รายการ, 2.5%)
แล้วไงต่อ? LOF จับค่าผิดปกติเชิงความหนาแน่นเฉพาะถิ่น — มีประโยชน์เมื่อสถิติรวมมองไม่เห็น
3
🟡 เตือน การกระจายเบ้มาก
คอลัมน์ 'price' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=2.00) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'price' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
4
🟡 เตือน การกระจายเบ้มาก
คอลัมน์ 'rating' มีการกระจายเบ้ซ้าย (หางยาวด้านน้อย) (skew=-1.91) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'rating' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
5
🟡 เตือน การกระจายเบ้มาก
คอลัมน์ 'sold_count' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=1.98) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'sold_count' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล

ภาพรวม

จำนวนแถว
15,000
จำนวนคอลัมน์
11
เซลล์ทั้งหมด
165,000
เซลล์ที่ว่าง
0 (0.0%)
แถวซ้ำ
0

ประเภทคอลัมน์

ตัวเลข 5หมวดหมู่ 3ตัวระบุ (ID) 1ข้อความผสม 1วันที่/เวลา 1
⚠ จำกัดกราฟไว้ 40 รูป / 1.6MB (ตัด 8 รูปที่สำคัญน้อยสุด) เพื่อลดขนาดไฟล์ HTML

คอลัมน์ที่ควรระวัง

🟡 เตือน price
  • Local Outlier Factor พบค่าผิดปกติ 255 ค่า (สุ่มตัวอย่าง 10,000 แถว) (ค่าผิดปกติสุด -6.419; ยิ่งติดลบมากยิ่งผิดปกติ)
  • พบค่าผิดปกติเชิงตัวเลข 580 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 2.00) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป
🟡 เตือน stock
  • พบค่าผิดปกติเชิงตัวเลข 665 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.98)
🟡 เตือน sold_count
  • พบค่าผิดปกติเชิงตัวเลข 629 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.98)
🟡 เตือน rating
  • พบค่าผิดปกติเชิงตัวเลข 291 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.91)
🔵 ข้อมูล product_name
  • พบเซลล์ที่เป็นอักษรละตินเป็นส่วนใหญ่ในคอลัมน์ที่ส่วนใหญ่เป็นภาษาไทย อาจเกิดจากการพิมพ์ผิดแป้นพิมพ์ (ลืมสลับเป็นไทย เช่น 'l;ylfu' แทน 'สวัสดี')
  • ข้อความ 9 รายการมีความยาวผิดปกติ (เกิน 3σ จากความยาวเฉลี่ย 22.7)

การกระจายและสหสัมพันธ์

แผนภาพการกระจายแบบเมทริกซ์
scatter matrix
กราฟนี้บอกอะไรเรา: ใช้ดู pattern ระหว่างตัวเลข เช่น เส้นตรง กลุ่มย่อย หรือ outlier
แผนภาพกล่อง
box plot
กราฟนี้บอกอะไรเรา: จุดที่หลุดจากกล่องคือค่าที่ควรตรวจว่าเป็น outlier จริงหรือไม่
แผนภาพไวโอลิน
violin plot
กราฟนี้บอกอะไรเรา: ดูรูปทรงการกระจายว่าเบ้ มีหลายกลุ่ม หรือกระจุกตัวตรงไหน

ข้อมูลที่ขาดหาย

✓ ไม่มีข้อมูลที่ขาดหาย

ข้อค้นพบสำคัญ 13 เตือน 14 ข้อมูล

🟡 เตือน ความผิดปกติ พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'stock': พบค่าผิดปกติเชิงตัวเลข 665 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.98) (665 รายการ, 4.4%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
🟡 เตือน ความผิดปกติ พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'sold_count': พบค่าผิดปกติเชิงตัวเลข 629 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.98) (629 รายการ, 4.2%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
🟡 เตือน ความผิดปกติ พบค่าผิดปกติเชิงความหนาแน่น (LOF)
คอลัมน์ 'price': Local Outlier Factor พบค่าผิดปกติ 255 ค่า (สุ่มตัวอย่าง 10,000 แถว) (ค่าผิดปกติสุด -6.419; ยิ่งติดลบมากยิ่งผิดปกติ) (255 รายการ, 2.5%)
แล้วไงต่อ? LOF จับค่าผิดปกติเชิงความหนาแน่นเฉพาะถิ่น — มีประโยชน์เมื่อสถิติรวมมองไม่เห็น
🟡 เตือน ความผิดปกติ พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'rating': พบค่าผิดปกติเชิงตัวเลข 291 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.91) (291 รายการ, 1.9%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
🟡 เตือน การกระจาย การกระจายเบ้มาก
คอลัมน์ 'price' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=2.00) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'price' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน การกระจาย การกระจายเบ้มาก
คอลัมน์ 'rating' มีการกระจายเบ้ซ้าย (หางยาวด้านน้อย) (skew=-1.91) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'rating' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน การกระจาย การกระจายเบ้มาก
คอลัมน์ 'sold_count' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=1.98) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'sold_count' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน การกระจาย การกระจายเบ้มาก
คอลัมน์ 'stock' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=1.98) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'stock' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน อนุกรมเวลา พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'price' มีค่าผิดปกติเฉพาะช่วง 50 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'price' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🟡 เตือน อนุกรมเวลา พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'rating' มีค่าผิดปกติเฉพาะช่วง 50 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'rating' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🟡 เตือน อนุกรมเวลา พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'sold_count' มีค่าผิดปกติเฉพาะช่วง 50 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'sold_count' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🟡 เตือน อนุกรมเวลา พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'stock' มีค่าผิดปกติเฉพาะช่วง 50 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'stock' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🟡 เตือน อนุกรมเวลา พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'discount_pct' มีค่าผิดปกติเฉพาะช่วง 50 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'discount_pct' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🔵 ข้อมูล คุณภาพ keyboard_layout_suspect
คอลัมน์ 'product_name': พบเซลล์ที่เป็นอักษรละตินเป็นส่วนใหญ่ในคอลัมน์ที่ส่วนใหญ่เป็นภาษาไทย อาจเกิดจากการพิมพ์ผิดแป้นพิมพ์ (ลืมสลับเป็นไทย เช่น 'l;ylfu' แทน 'สวัสดี') (พบ 588 แถว, 3.9%)
แล้วไงต่อ? ตรวจสอบเซลล์เหล่านี้ หากพิมพ์ผิดจริงให้แก้ด้วย clean.fix_keyboard_layout (แปลงเฉพาะเมื่อผลลัพธ์เป็นคำไทยจริง)
🔵 ข้อมูล ความผิดปกติ พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'price': พบค่าผิดปกติเชิงตัวเลข 580 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 2.00) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป (580 รายการ, 3.9%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
🔵 ข้อมูล ข้อความ พบความยาวข้อความผิดปกติ
คอลัมน์ 'product_name': ข้อความ 9 รายการมีความยาวผิดปกติ (เกิน 3σ จากความยาวเฉลี่ย 22.7) (9 รายการ, 0.1%)
แล้วไงต่อ? ตรวจหาข้อความที่ถูกตัด ว่างเปล่า หรือถูกต่อกันหลายรายการ
🔵 ข้อมูล ข้อความ คำศัพท์หลากหลายต่ำ (คำซ้ำเยอะ)
คอลัมน์ 'product_name' มีคำไม่ซ้ำเพียง 0% ของคำทั้งหมด (33 จาก 24,100 คำ) — มีคำซ้ำเยอะ
แล้วไงต่อ? ข้อความใน 'product_name' อาจเป็นเทมเพลต/ข้อความซ้ำ ๆ — ตรวจสอบว่ามีคุณค่าต่อการวิเคราะห์เนื้อหาเพียงพอหรือไม่
🔵 ข้อมูล การกระจาย อาจมี 2 กลุ่มข้อมูล (bimodal)
คอลัมน์ 'discount_pct' มีลักษณะการแจกแจงแบบ 2 จุดยอด — อาจมีกลุ่มย่อย 2 กลุ่มปนกัน
แล้วไงต่อ? พิจารณาแยกวิเคราะห์ 'discount_pct' ตามกลุ่ม หรือหาตัวแปรที่อธิบายการแบ่งกลุ่ม
🔵 ข้อมูล อนุกรมเวลา ไม่พบแนวโน้มหรือ seasonality
คอลัมน์ 'price' ไม่มีแนวโน้มหรือรูปแบบตามฤดูกาลชัดเจน — อาจเป็น random walk/ข้อมูลนิ่ง
แล้วไงต่อ? การพยากรณ์ 'price' อาจใช้วิธีพื้นฐาน (naive/mean) เป็นฐานเปรียบเทียบ
🔵 ข้อมูล อนุกรมเวลา ไม่พบแนวโน้มหรือ seasonality
คอลัมน์ 'rating' ไม่มีแนวโน้มหรือรูปแบบตามฤดูกาลชัดเจน — อาจเป็น random walk/ข้อมูลนิ่ง
แล้วไงต่อ? การพยากรณ์ 'rating' อาจใช้วิธีพื้นฐาน (naive/mean) เป็นฐานเปรียบเทียบ
แสดงข้อค้นพบเพิ่มเติม (7)
🔵 ข้อมูล อนุกรมเวลา ไม่พบแนวโน้มหรือ seasonality
คอลัมน์ 'sold_count' ไม่มีแนวโน้มหรือรูปแบบตามฤดูกาลชัดเจน — อาจเป็น random walk/ข้อมูลนิ่ง
แล้วไงต่อ? การพยากรณ์ 'sold_count' อาจใช้วิธีพื้นฐาน (naive/mean) เป็นฐานเปรียบเทียบ
🔵 ข้อมูล อนุกรมเวลา ไม่พบแนวโน้มหรือ seasonality
คอลัมน์ 'stock' ไม่มีแนวโน้มหรือรูปแบบตามฤดูกาลชัดเจน — อาจเป็น random walk/ข้อมูลนิ่ง
แล้วไงต่อ? การพยากรณ์ 'stock' อาจใช้วิธีพื้นฐาน (naive/mean) เป็นฐานเปรียบเทียบ
🔵 ข้อมูล อนุกรมเวลา ไม่พบแนวโน้มหรือ seasonality
คอลัมน์ 'discount_pct' ไม่มีแนวโน้มหรือรูปแบบตามฤดูกาลชัดเจน — อาจเป็น random walk/ข้อมูลนิ่ง
แล้วไงต่อ? การพยากรณ์ 'discount_pct' อาจใช้วิธีพื้นฐาน (naive/mean) เป็นฐานเปรียบเทียบ
🔵 ข้อมูล คุณภาพ สรุปการทำความสะอาดข้อมูล
ทำความสะอาดแล้วรวม 773 เซลล์ — handle_missing_values 740 เซลล์, ลดอักขระซ้ำเกิน 33 เซลล์
แล้วไงต่อ? ตรวจสอบรายละเอียดก่อน/หลังในส่วน 'การทำความสะอาด' ของรายงาน
🔵 ข้อมูล เชิงธุรกิจ พบ outlier 272 แถวในคอลัมน์ 'price' (z-score ≥ 3.0)
คอลัมน์ 'price' มี 272 ค่าที่เป็น outlier (1.8% ของข้อมูล, max z-score=7.9, mean=2,056.2, std=2,010.8)
แล้วไงต่อ? ตรวจสอบ outlier ในคอลัมน์ 'price' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล
🔵 ข้อมูล เชิงธุรกิจ พบ outlier 291 แถวในคอลัมน์ 'sold_count' (z-score ≥ 3.0)
คอลัมน์ 'sold_count' มี 291 ค่าที่เป็น outlier (1.9% ของข้อมูล, max z-score=7.8, mean=499.7, std=499.5)
แล้วไงต่อ? ตรวจสอบ outlier ในคอลัมน์ 'sold_count' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล
🔵 ข้อมูล เชิงธุรกิจ พบ outlier 269 แถวในคอลัมน์ 'stock' (z-score ≥ 3.0)
คอลัมน์ 'stock' มี 269 ค่าที่เป็น outlier (1.8% ของข้อมูล, max z-score=8.0, mean=101.0, std=101.6)
แล้วไงต่อ? ตรวจสอบ outlier ในคอลัมน์ 'stock' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล

ข้อค้นพบจากการวิเคราะห์คอลัมน์ผสม (4)

pattern_outlier พบ outlier 272 แถวในคอลัมน์ 'price' (z-score ≥ 3.0) จัดกลุ่มตาม: price · ตัววัด: price · outlier
คอลัมน์ 'price' มี 272 ค่าที่เป็น outlier (1.8% ของข้อมูล, max z-score=7.9, mean=2,056.2, std=2,010.8)
แล้วไงต่อ? ตรวจสอบ outlier ในคอลัมน์ 'price' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล
pattern_outlier พบ outlier 291 แถวในคอลัมน์ 'sold_count' (z-score ≥ 3.0) จัดกลุ่มตาม: sold_count · ตัววัด: sold_count · outlier
คอลัมน์ 'sold_count' มี 291 ค่าที่เป็น outlier (1.9% ของข้อมูล, max z-score=7.8, mean=499.7, std=499.5)
แล้วไงต่อ? ตรวจสอบ outlier ในคอลัมน์ 'sold_count' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล
pattern_outlier พบ outlier 269 แถวในคอลัมน์ 'stock' (z-score ≥ 3.0) จัดกลุ่มตาม: stock · ตัววัด: stock · outlier
คอลัมน์ 'stock' มี 269 ค่าที่เป็น outlier (1.8% ของข้อมูล, max z-score=8.0, mean=101.0, std=101.6)
แล้วไงต่อ? ตรวจสอบ outlier ในคอลัมน์ 'stock' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล
pattern_outlier พบ outlier 295 แถวในคอลัมน์ 'rating' (z-score ≥ 3.0) จัดกลุ่มตาม: rating · ตัววัด: rating · outlier
คอลัมน์ 'rating' มี 295 ค่าที่เป็น outlier (2.0% ของข้อมูล, max z-score=4.5, mean=4.0, std=0.9)
แล้วไงต่อ? ตรวจสอบ outlier ในคอลัมน์ 'rating' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล

ปัญหาคุณภาพข้อมูล (1)

🔵 ข้อมูลproduct_name · keyboard_layout_suspect
จำนวน: 588 (3.92%)
พบเซลล์ที่เป็นอักษรละตินเป็นส่วนใหญ่ในคอลัมน์ที่ส่วนใหญ่เป็นภาษาไทย อาจเกิดจากการพิมพ์ผิดแป้นพิมพ์ (ลืมสลับเป็นไทย เช่น 'l;ylfu' แทน 'สวัสดี')
Huawei กีฬา รุ่น MaxApple กีฬา รุ่น LiteXiaomi กีฬา รุ่น LiteHuawei กีฬา รุ่น MaxXiaomi กีฬา รุ่น Lite
แล้วไงต่อ? ตรวจสอบเซลล์เหล่านี้ หากพิมพ์ผิดจริงให้แก้ด้วย clean.fix_keyboard_layout (แปลงเฉพาะเมื่อผลลัพธ์เป็นคำไทยจริง)
ดูเพิ่มเติม
Cells dominated by Latin letters were found in a mostly-Thai column. They may be mistyped with the wrong keyboard layout (e.g. 'l;ylfu' for 'สวัสดี'). — Verify these cells; if mistyped, fix with clean.fix_keyboard_layout (it converts only when the result is a real Thai word).

ความผิดปกติ (6)

🟡 เตือนstock · numeric_outliers เชิงสถิติ
จำนวน: 665 (4.43%)
พบค่าผิดปกติเชิงตัวเลข 665 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.98)
402369460327618
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
ดูเพิ่มเติม
665 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 1.98). — Inspect these values; they may be data-entry errors, units mismatch, genuine extremes, or valid business extremes.
🟡 เตือนsold_count · numeric_outliers เชิงสถิติ
จำนวน: 629 (4.19%)
พบค่าผิดปกติเชิงตัวเลข 629 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.98)
16561745159317511586
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
ดูเพิ่มเติม
629 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 1.98). — Inspect these values; they may be data-entry errors, units mismatch, genuine extremes, or valid business extremes.
🟡 เตือนprice · local_outlier_factor เชิงสถิติ
จำนวน: 255 (2.55%)
Local Outlier Factor พบค่าผิดปกติ 255 ค่า (สุ่มตัวอย่าง 10,000 แถว) (ค่าผิดปกติสุด -6.419; ยิ่งติดลบมากยิ่งผิดปกติ)
17394.82 (LOF=-6.419)17221.05 (LOF=-6.318)17193.06 (LOF=-6.302)15393.59 (LOF=-5.279)14924.29 (LOF=-5.018)
แล้วไงต่อ? LOF จับค่าผิดปกติเชิงความหนาแน่นเฉพาะถิ่น — มีประโยชน์เมื่อสถิติรวมมองไม่เห็น
ดูเพิ่มเติม
Local Outlier Factor flagged 255 outlier(s) on a 10,000-row sample (most anomalous factor -6.419; more negative = more anomalous). — LOF finds density-based local outliers; useful when global statistics miss them.
🟡 เตือนrating · numeric_outliers เชิงสถิติ
จำนวน: 291 (1.94%)
พบค่าผิดปกติเชิงตัวเลข 291 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 1.91)
00000
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
ดูเพิ่มเติม
291 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 1.91). — Inspect these values; they may be data-entry errors, units mismatch, genuine extremes, or valid business extremes.
🔵 ข้อมูลprice · numeric_outliers เชิงสถิติ
จำนวน: 580 (3.87%)
พบค่าผิดปกติเชิงตัวเลข 580 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 2.00) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป
8276.436664.0211489.756983.677819.95
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
ดูเพิ่มเติม
580 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 2.00). Heavy-tailed distributions often contain valid business extremes; treat this as context, not automatically as a data defect. — Inspect these values; they may be data-entry errors, units mismatch, genuine extremes, or valid business extremes.
🔵 ข้อมูลproduct_name · text_length_anomaly ข้อความ
จำนวน: 9 (0.06%)
ข้อความ 9 รายการมีความยาวผิดปกติ (เกิน 3σ จากความยาวเฉลี่ย 22.7)
len=12: LGกีฬารุ่นC3len=12: LGกีฬารุ่นC3len=12: LGกีฬารุ่นC3len=12: LGกีฬารุ่นC3len=13: LGอาหารรุ่นC3
แล้วไงต่อ? ตรวจหาข้อความที่ถูกตัด ว่างเปล่า หรือถูกต่อกันหลายรายการ
ดูเพิ่มเติม
9 text(s) with abnormal length (>3σ from mean length 22.7). — Check for truncated, empty, or concatenated records.

การวิเคราะห์อนุกรมเวลา (วันที่/เวลา: listed_date)

priceความถี่: รายวัน
แนวโน้มไม่มีฤดูกาลไม่มี
ช่องว่างเวลา0ค่าผิดปกติเฉพาะช่วง50
สหสัมพันธ์ในตัว (lag-1)0.0006ค่าเฉลี่ย2056.2429
แล้วไงต่อ?
• พบค่าผิดปกติเฉพาะช่วง (spike) 50 จุด
• ไม่พบแนวโน้มหรือ seasonality ชัดเจน — อาจเป็น random walk หรือข้อมูลนิ่ง
อนุกรมเวลา (พร้อมแนวโน้ม)
timeseries line
ratingความถี่: รายวัน
แนวโน้มไม่มีฤดูกาลไม่มี
ช่องว่างเวลา0ค่าผิดปกติเฉพาะช่วง50
สหสัมพันธ์ในตัว (lag-1)-0.0091ค่าเฉลี่ย4.054
แล้วไงต่อ?
• พบค่าผิดปกติเฉพาะช่วง (spike) 50 จุด
• ไม่พบแนวโน้มหรือ seasonality ชัดเจน — อาจเป็น random walk หรือข้อมูลนิ่ง
อนุกรมเวลา (พร้อมแนวโน้ม)
timeseries line
sold_countความถี่: รายวัน
แนวโน้มไม่มีฤดูกาลไม่มี
ช่องว่างเวลา0ค่าผิดปกติเฉพาะช่วง50
สหสัมพันธ์ในตัว (lag-1)-0.0017ค่าเฉลี่ย499.7034
แล้วไงต่อ?
• พบค่าผิดปกติเฉพาะช่วง (spike) 50 จุด
• ไม่พบแนวโน้มหรือ seasonality ชัดเจน — อาจเป็น random walk หรือข้อมูลนิ่ง
อนุกรมเวลา (พร้อมแนวโน้ม)
timeseries line
stockความถี่: รายวัน
แนวโน้มไม่มีฤดูกาลไม่มี
ช่องว่างเวลา0ค่าผิดปกติเฉพาะช่วง50
สหสัมพันธ์ในตัว (lag-1)-0.0032ค่าเฉลี่ย100.9649
แล้วไงต่อ?
• พบค่าผิดปกติเฉพาะช่วง (spike) 50 จุด
• ไม่พบแนวโน้มหรือ seasonality ชัดเจน — อาจเป็น random walk หรือข้อมูลนิ่ง
อนุกรมเวลา (พร้อมแนวโน้ม)
timeseries line
การแยกองค์ประกอบ (STL)
STL decomposition
discount_pctความถี่: รายวัน
แนวโน้มไม่มีฤดูกาลไม่มี
ช่องว่างเวลา0ค่าผิดปกติเฉพาะช่วง50
สหสัมพันธ์ในตัว (lag-1)-0.0068ค่าเฉลี่ย15.0217
แล้วไงต่อ?
• พบค่าผิดปกติเฉพาะช่วง (spike) 50 จุด
• ไม่พบแนวโน้มหรือ seasonality ชัดเจน — อาจเป็น random walk หรือข้อมูลนิ่ง
อนุกรมเวลา (พร้อมแนวโน้ม)
timeseries line
การแยกองค์ประกอบ (STL)
STL decomposition

การทำความสะอาด (3)

รวมเซลล์ที่เปลี่ยน: 773 · การดำเนินการที่มีผลมากสุด: handle_missing_values (แทน 449 ค่าว่างด้วย 0 (numeric) — 449)
คอลัมน์การดำเนินการแถวที่ได้รับผลกระทบก่อน → หลัง
pricehandle_missing_values
แทน 449 ค่าว่างด้วย 0 (numeric)
449
ratinghandle_missing_values
แทน 291 ค่าว่างด้วย 0 (numeric)
291
product_idfix_repeated_chars
ลดการซ้ำอักขระที่เกิน 3 ตัว (เช่น 55555 → 555, ๆๆๆ → ๆ)
33P00000P000P00001P0001P00002P0002P00003P0003P00004P0004

คำแนะนำการทำความสะอาด (0)

✓ ไม่มีคำแนะนำการทำความสะอาด

รายละเอียดคอลัมน์

ส่วนนี้ซ่อนไว้เป็นรายคอลัมน์เพื่อลดความรก เปิดเฉพาะคอลัมน์ที่ต้องการตรวจละเอียด

product_idตัวระบุ (ID)มีกราฟ
ไม่ว่าง15,000
เซลล์ที่ว่าง0
ไม่ซ้ำ15,000
ความถี่ของค่า
value counts

ค่าที่พบบ่อย

P0001
P00011
P00021
P00031
P00041
P00051
P00061
P00071
P00081
P00091
product_nameข้อความผสมมีกราฟ
เครื่องมือตัดคำpythainlp:newmmจำนวนอักขระเฉลี่ย22.71
จำนวนคำเฉลี่ย4.82จำนวนอักขระมัธยฐาน23.0
คำทั้งหมด24,100คำไม่ซ้ำ33
อักขระน้อยสุด12อักขระมากสุด30
สุ่มตัวอย่าง: 5,000 จาก 15,000

คู่คำที่พบบ่อย: รุ่น B (865) B 2 (865) รุ่น C (864) C 3 (864) รุ่น A (846) A 1 (846) รุ่น Lite (828) รุ่น Max (807)

คำที่พบบ่อย
top tokens
การกระจายความยาว
length histogram
เมฆคำ
word cloud
categoryหมวดหมู่มีกราฟ
ไม่ว่าง15,000
เซลล์ที่ว่าง0
ไม่ซ้ำ10
ความถี่ของค่า
value counts

ค่าที่พบบ่อย

กีฬา1,589
ของเล่น1,572
อาหาร1,526
ของใช้ในบ้าน1,525
เครื่องสำอาง1,484
คอมพิวเตอร์1,482
เสื้อผ้า1,465
รองเท้า1,465
โทรศัพท์1,456
หนังสือ1,436
brandหมวดหมู่มีกราฟ
ไม่ว่าง15,000
เซลล์ที่ว่าง0
ไม่ซ้ำ10
ความถี่ของค่า
value counts

ค่าที่พบบ่อย

Samsung1,546
Nike1,528
Huawei1,526
L'Oreal1,511
Adidas1,507
Sony1,500
Apple1,484
Xiaomi1,484
Oppo1,477
LG1,437
priceตัวเลขมีกราฟ
ไม่ว่าง15,000
เซลล์ที่ว่าง0
ไม่ซ้ำ14,279
ค่าเฉลี่ย2056.2429
ส่วนเบี่ยงเบนมาตรฐาน2010.7764
ต่ำสุด0.0
สูงสุด18018.2
การแจกแจง
value distribution
ratingตัวเลขมีกราฟ
ไม่ว่าง15,000
เซลล์ที่ว่าง0
ไม่ซ้ำ40
ค่าเฉลี่ย4.054
ส่วนเบี่ยงเบนมาตรฐาน0.8943
ต่ำสุด0.0
สูงสุด5.0
การแจกแจง
value distribution
sold_countตัวเลขมีกราฟ
ไม่ว่าง15,000
เซลล์ที่ว่าง0
ไม่ซ้ำ1,994
ค่าเฉลี่ย499.7034
ส่วนเบี่ยงเบนมาตรฐาน499.4608
ต่ำสุด0.0
สูงสุด4375.0
การแจกแจง
value distribution
stockตัวเลขมีกราฟ
ไม่ว่าง15,000
เซลล์ที่ว่าง0
ไม่ซ้ำ568
ค่าเฉลี่ย100.9649
ส่วนเบี่ยงเบนมาตรฐาน101.6226
ต่ำสุด0.0
สูงสุด914.0
การแจกแจง
value distribution
discount_pctตัวเลขมีกราฟ
ไม่ว่าง15,000
เซลล์ที่ว่าง0
ไม่ซ้ำ9
ค่าเฉลี่ย15.0217
ส่วนเบี่ยงเบนมาตรฐาน14.401
ต่ำสุด0.0
สูงสุด50.0
การแจกแจง
value distribution
seller_provinceหมวดหมู่มีกราฟ
ไม่ว่าง15,000
เซลล์ที่ว่าง0
ไม่ซ้ำ10
ความถี่ของค่า
value counts

ค่าที่พบบ่อย

อุบลราชธานี1,563
นนทบุรี1,535
เชียงใหม่1,530
สุราษฎร์ธานี1,519
ขอนแก่น1,487
กรุงเทพฯ1,486
ชลบุรี1,486
ภูเก็ต1,485
นครราชสีมา1,466
พิษณุโลก1,443
listed_dateวันที่/เวลา
ไม่ว่าง15,000
เซลล์ที่ว่าง0
ไม่ซ้ำ365
ต่ำสุด2024-01-01 00:00:00
สูงสุด2024-12-30 00:00:00