รายงานวิเคราะห์ข้อมูล ThaiEDA

สร้างโดย ThaiEDA v2.0.0 · 200 จำนวนแถว × 8 จำนวนคอลัมน์
วิธีอ่านรายงานนี้: เริ่มจากบทสรุปด้านบน แล้วดูสิ่งที่ควรทำก่อน แล้วค่อยเจาะรายละเอียดแต่ละคอลัมน์
ประเภทข้อมูลที่ตรวจพบ
ข้อมูลทะเบียน/มาสเตอร์
ข้อมูลนี้เป็นรายการ entity พร้อมคุณลักษณะ ควรเน้นความครบถ้วนและความไม่ซ้ำของระเบียน
ภาษาข้อมูลที่ตรวจพบ ไทย
ผลกระทบต่อการวิเคราะห์: ข้อมูลมีภาษาไทยเด่น จึงเปิด Thai-specific checks เช่น พ.ศ., เลขไทย และ normalization
ควรดูอะไรเป็นพิเศษ
  • ตรวจ completeness ของ attribute สำคัญ
  • ตรวจ uniqueness ของรหัส/คีย์หลัก
  • ดู category distribution เพื่อหา master data ที่ผิดรูปแบบหรือกระจุกตัว
  • เปิดการตรวจปี พ.ศ. และการแปลงศักราชให้สม่ำเสมอ
  • ตรวจเลขไทย (๐–๙) และ normalize เป็นเลขอารบิกก่อนคำนวณ
  • ตรวจอักขระล่องหน/การ normalize ข้อความไทยก่อน groupby/join

คำแนะนำเฉพาะข้อมูลไทย

  • เปิดการตรวจปี พ.ศ. และการแปลงศักราชให้สม่ำเสมอ
  • ตรวจเลขไทย (๐–๙) และ normalize เป็นเลขอารบิกก่อนคำนวณ
  • ตรวจอักขระล่องหน/การ normalize ข้อความไทยก่อน groupby/join

2. สำคัญที่สุด

1
🟡 เตือน monthly_sales
monthly_sales 11.5% มีค่าผิดปกติ — ควรตรวจก่อนนำไป forecast คำนวณยอดรวม หรือวัด performance
Local Outlier Factor flagged 23 outlier(s) (most anomalous factor -38.122; more negative = more anomalous).
ผลกระทบ 11.5%
2
🟡 เตือน monthly_sales
monthly_sales 12.0% มีค่าผิดปกติ — ควรตรวจก่อนนำไป forecast คำนวณยอดรวม หรือวัด performance
Isolation Forest flagged 24 outlier(s) (most anomalous score -0.415; lower = more anomalous).
ผลกระทบ 12.0%
3
🟡 เตือน shop_name
ใช้การ normalize ข้อความ (เช่น pythainlp.util.normalize) ก่อนวิเคราะห์
Text normalization issues found (repeated-char spam). These cause duplicate-looking but unequal strings.
ผลกระทบ 0.5%
4
🔵 ข้อมูล monthly_sales
monthly_sales 6.0% มีค่าผิดปกติ — ควรตรวจก่อนนำไป forecast คำนวณยอดรวม หรือวัด performance
12 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 12.16). Heavy-tailed distributions often contain valid business extremes; treat this as context, not automatically as a data defect.
ผลกระทบ 6.0%
5
🔵 ข้อมูล province
ตรวจสอบว่าเหตุใดกลุ่ม 'กรุงเทพมหานคร' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
บทสรุปผู้บริหาร
ข้อมูลใช้ต่อได้ แต่ควรตรวจจุดที่เตือนก่อนวิเคราะห์เชิงลึก
ชุดข้อมูลมี 200 แถว × 8 คอลัมน์ พบปัญหาคุณภาพ 1 ข้อ พบความผิดปกติ 3 จุดใน 1 คอลัมน์ วิเคราะห์อนุกรมเวลา 2 คอลัมน์ ข้อมูลใช้งานได้ แต่ควรตรวจสอบจุดที่เตือนก่อนวิเคราะห์เชิงลึก
  • มีข้อมูล 200 แถว × 8 คอลัมน์
  • ค่าว่าง 0.00% ของข้อมูลทั้งหมด
  • แถวซ้ำ 0 แถว (0.00%)
  • พบข้อค้นพบที่ควรดู 15 เรื่อง
  • มี insight เชิงธุรกิจ 6 เรื่อง

สิ่งที่ควรทำก่อน

1
🟡 เตือน พบปัญหาการ normalize ข้อความ
คอลัมน์ 'shop_name': พบปัญหาการ normalize ข้อความ (repeated-char spam) ทำให้สตริงที่ดูเหมือนกันแต่ไม่เท่ากันจริง (พบ 1 แถว, 0.5%)
แล้วไงต่อ? ใช้การ normalize ข้อความ (เช่น pythainlp.util.normalize) ก่อนวิเคราะห์
2
🟡 เตือน พบค่าผิดปกติจากโมเดล (Isolation Forest)
คอลัมน์ 'monthly_sales': Isolation Forest พบค่าผิดปกติ 24 ค่า (คะแนนผิดปกติสุด -0.415; ยิ่งต่ำยิ่งผิดปกติ) (24 รายการ, 12.0%)
แล้วไงต่อ? ค่าผิดปกติแบบ ML ใช้เสริมวิธีเชิงสถิติ — ควรตรวจสอบจุดที่ถูก flag ประกอบกัน
3
🟡 เตือน พบค่าผิดปกติเชิงความหนาแน่น (LOF)
คอลัมน์ 'monthly_sales': Local Outlier Factor พบค่าผิดปกติ 23 ค่า (ค่าผิดปกติสุด -38.122; ยิ่งติดลบมากยิ่งผิดปกติ) (23 รายการ, 11.5%)
แล้วไงต่อ? LOF จับค่าผิดปกติเชิงความหนาแน่นเฉพาะถิ่น — มีประโยชน์เมื่อสถิติรวมมองไม่เห็น
4
🟡 เตือน การกระจายเบ้มาก
คอลัมน์ 'monthly_sales' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=12.16) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'monthly_sales' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
5
🟡 เตือน พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'monthly_sales' มีค่าผิดปกติเฉพาะช่วง 1 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'monthly_sales' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ

ภาพรวม

จำนวนแถว
200
จำนวนคอลัมน์
8
เซลล์ทั้งหมด
1,600
เซลล์ที่ว่าง
0 (0.0%)
แถวซ้ำ
0

ประเภทคอลัมน์

ข้อความภาษาไทย 2ตัวเลข 2ตัวระบุ (ID) 1หมวดหมู่ 1เบอร์โทรศัพท์ 1วันที่/เวลา 1

คอลัมน์ที่ควรระวัง

🟡 เตือน monthly_sales
  • Isolation Forest พบค่าผิดปกติ 24 ค่า (คะแนนผิดปกติสุด -0.415; ยิ่งต่ำยิ่งผิดปกติ)
  • Local Outlier Factor พบค่าผิดปกติ 23 ค่า (ค่าผิดปกติสุด -38.122; ยิ่งติดลบมากยิ่งผิดปกติ)
  • พบค่าผิดปกติเชิงตัวเลข 12 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 12.16) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป
🟡 เตือน shop_name
  • พบปัญหาการ normalize ข้อความ (repeated-char spam) ทำให้สตริงที่ดูเหมือนกันแต่ไม่เท่ากันจริง

การกระจายและสหสัมพันธ์

แผนภาพการกระจายแบบเมทริกซ์
scatter matrix
กราฟนี้บอกอะไรเรา: ใช้ดู pattern ระหว่างตัวเลข เช่น เส้นตรง กลุ่มย่อย หรือ outlier
แผนภาพกล่อง
box plot
กราฟนี้บอกอะไรเรา: จุดที่หลุดจากกล่องคือค่าที่ควรตรวจว่าเป็น outlier จริงหรือไม่
แผนภาพไวโอลิน
violin plot
กราฟนี้บอกอะไรเรา: ดูรูปทรงการกระจายว่าเบ้ มีหลายกลุ่ม หรือกระจุกตัวตรงไหน

ข้อมูลที่ขาดหาย

✓ ไม่มีข้อมูลที่ขาดหาย

ข้อค้นพบสำคัญ 6 เตือน 9 ข้อมูล

🟡 เตือน คุณภาพ พบปัญหาการ normalize ข้อความ
คอลัมน์ 'shop_name': พบปัญหาการ normalize ข้อความ (repeated-char spam) ทำให้สตริงที่ดูเหมือนกันแต่ไม่เท่ากันจริง (พบ 1 แถว, 0.5%)
แล้วไงต่อ? ใช้การ normalize ข้อความ (เช่น pythainlp.util.normalize) ก่อนวิเคราะห์
🟡 เตือน ความผิดปกติ พบค่าผิดปกติจากโมเดล (Isolation Forest)
คอลัมน์ 'monthly_sales': Isolation Forest พบค่าผิดปกติ 24 ค่า (คะแนนผิดปกติสุด -0.415; ยิ่งต่ำยิ่งผิดปกติ) (24 รายการ, 12.0%)
แล้วไงต่อ? ค่าผิดปกติแบบ ML ใช้เสริมวิธีเชิงสถิติ — ควรตรวจสอบจุดที่ถูก flag ประกอบกัน
🟡 เตือน ความผิดปกติ พบค่าผิดปกติเชิงความหนาแน่น (LOF)
คอลัมน์ 'monthly_sales': Local Outlier Factor พบค่าผิดปกติ 23 ค่า (ค่าผิดปกติสุด -38.122; ยิ่งติดลบมากยิ่งผิดปกติ) (23 รายการ, 11.5%)
แล้วไงต่อ? LOF จับค่าผิดปกติเชิงความหนาแน่นเฉพาะถิ่น — มีประโยชน์เมื่อสถิติรวมมองไม่เห็น
🟡 เตือน การกระจาย การกระจายเบ้มาก
คอลัมน์ 'monthly_sales' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=12.16) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'monthly_sales' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน อนุกรมเวลา พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'monthly_sales' มีค่าผิดปกติเฉพาะช่วง 1 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'monthly_sales' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🟡 เตือน อนุกรมเวลา พบค่าผิดปกติเฉพาะช่วง (spike)
คอลัมน์ 'customer_count' มีค่าผิดปกติเฉพาะช่วง 2 จุด (spike/level shift จาก residual)
แล้วไงต่อ? ตรวจสอบเหตุการณ์ในช่วงเวลาดังกล่าวของ 'customer_count' ว่าผิดปกติจริงหรือเป็นข้อมูลพิเศษ
🔵 ข้อมูล ความผิดปกติ พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'monthly_sales': พบค่าผิดปกติเชิงตัวเลข 12 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 12.16) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป (12 รายการ, 6.0%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
🔵 ข้อมูล ข้อความ คอลัมน์ข้อความมีค่าไม่ซ้ำสูง
คอลัมน์ 'shop_name' มีค่าไม่ซ้ำ 100% (200 จาก 200 แถว) — อาจเป็น ID หรือข้อความอิสระ ไม่ใช่ตัวแปรหมวดหมู่
แล้วไงต่อ? ตรวจสอบว่าคอลัมน์ 'shop_name' ควรใช้เป็น ID/ข้อความอิสระ และไม่นำไปจัดกลุ่ม (groupby) เป็นหมวดหมู่
🔵 ข้อมูล ข้อความ คำศัพท์หลากหลายต่ำ (คำซ้ำเยอะ)
คอลัมน์ 'category' มีคำไม่ซ้ำเพียง 2% ของคำทั้งหมด (11 จาก 538 คำ) — มีคำซ้ำเยอะ
แล้วไงต่อ? ข้อความใน 'category' อาจเป็นเทมเพลต/ข้อความซ้ำ ๆ — ตรวจสอบว่ามีคุณค่าต่อการวิเคราะห์เนื้อหาเพียงพอหรือไม่
🔵 ข้อมูล การกระจาย การกระจายหางหนัก (heavy tail)
คอลัมน์ 'monthly_sales' มีหางหนัก (kurtosis=161.75) — มีค่าสุดโต่ง (outlier) มากกว่าปกติ
แล้วไงต่อ? ตรวจสอบค่าสุดโต่งของ 'monthly_sales' และพิจารณาวิธีที่ทนต่อ outlier (median/robust stats)
🔵 ข้อมูล อนุกรมเวลา ไม่พบแนวโน้มหรือ seasonality
คอลัมน์ 'monthly_sales' ไม่มีแนวโน้มหรือรูปแบบตามฤดูกาลชัดเจน — อาจเป็น random walk/ข้อมูลนิ่ง
แล้วไงต่อ? การพยากรณ์ 'monthly_sales' อาจใช้วิธีพื้นฐาน (naive/mean) เป็นฐานเปรียบเทียบ
🔵 ข้อมูล อนุกรมเวลา ไม่พบแนวโน้มหรือ seasonality
คอลัมน์ 'customer_count' ไม่มีแนวโน้มหรือรูปแบบตามฤดูกาลชัดเจน — อาจเป็น random walk/ข้อมูลนิ่ง
แล้วไงต่อ? การพยากรณ์ 'customer_count' อาจใช้วิธีพื้นฐาน (naive/mean) เป็นฐานเปรียบเทียบ
🔵 ข้อมูล เชิงธุรกิจ กลุ่ม 'กรุงเทพมหานคร' โดดเด่นใน 'customer_count' (ตาม 'province')
กลุ่ม 'กรุงเทพมหานคร' มีผลรวม 'customer_count' สูงสุดที่ 177,377.0 — สูงกว่ากลุ่มรอง 3.3 เท่า (จัดกลุ่มตาม 'province')
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'กรุงเทพมหานคร' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
🔵 ข้อมูล เชิงธุรกิจ กลุ่ม 'เชียงใหม่' โดดเด่นใน 'monthly_sales' (ตาม 'province')
กลุ่ม 'เชียงใหม่' มีค่าเฉลี่ย 'monthly_sales' สูงสุดที่ 236,369.1 — สูงกว่ากลุ่มรอง 1.6 เท่า (จัดกลุ่มตาม 'province')
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'เชียงใหม่' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
🔵 ข้อมูล เชิงธุรกิจ กลุ่ม 'กรุงเทพมหานคร' โดดเด่นใน จำนวนข้อมูล (ตาม 'province')
กลุ่ม 'กรุงเทพมหานคร' มีจำนวนข้อมูลสูงสุดที่ 100 แถว — มากกว่ากลุ่มรอง 2.8 เท่า (จัดกลุ่มตาม 'province')
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'กรุงเทพมหานคร' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ

ข้อค้นพบจากการวิเคราะห์คอลัมน์ผสม (6)

กลุ่มโดดเด่น กลุ่ม 'กรุงเทพมหานคร' โดดเด่นใน 'customer_count' (ตาม 'province') จัดกลุ่มตาม: province · ตัววัด: customer_count · sum
กลุ่ม 'กรุงเทพมหานคร' มีผลรวม 'customer_count' สูงสุดที่ 177,377.0 — สูงกว่ากลุ่มรอง 3.3 เท่า (จัดกลุ่มตาม 'province')
กราฟนี้บอกอะไรเรา
insight chart
กลุ่มค่า
กรุงเทพมหานคร177,377.0
เชียงใหม่53,662.0
ชลบุรี37,148.0
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'กรุงเทพมหานคร' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
กลุ่มโดดเด่น กลุ่ม 'เชียงใหม่' โดดเด่นใน 'monthly_sales' (ตาม 'province') จัดกลุ่มตาม: province · ตัววัด: monthly_sales · mean
กลุ่ม 'เชียงใหม่' มีค่าเฉลี่ย 'monthly_sales' สูงสุดที่ 236,369.1 — สูงกว่ากลุ่มรอง 1.6 เท่า (จัดกลุ่มตาม 'province')
กราฟนี้บอกอะไรเรา
insight chart
กลุ่มค่า
เชียงใหม่236,369.08
ภูเก็ต143,762.29
กรุงเทพมหานคร137,257.04
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'เชียงใหม่' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
กลุ่มโดดเด่น กลุ่ม 'กรุงเทพมหานคร' โดดเด่นใน จำนวนข้อมูล (ตาม 'province') จัดกลุ่มตาม: province · count
กลุ่ม 'กรุงเทพมหานคร' มีจำนวนข้อมูลสูงสุดที่ 100 แถว — มากกว่ากลุ่มรอง 2.8 เท่า (จัดกลุ่มตาม 'province')
กราฟนี้บอกอะไรเรา
insight chart
กลุ่มค่า
กรุงเทพมหานคร100.0
เชียงใหม่36.0
ภูเก็ต24.0
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'กรุงเทพมหานคร' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
กลุ่มโดดเด่น กลุ่ม 'กรุงเทพมหานคร' โดดเด่นใน 'monthly_sales' (ตาม 'province') จัดกลุ่มตาม: province · ตัววัด: monthly_sales · sum
กลุ่ม 'กรุงเทพมหานคร' มีผลรวม 'monthly_sales' สูงสุดที่ 13,725,704.1 — สูงกว่ากลุ่มรอง 1.6 เท่า (จัดกลุ่มตาม 'province')
กราฟนี้บอกอะไรเรา
insight chart
กลุ่มค่า
กรุงเทพมหานคร13,725,704.07
เชียงใหม่8,509,286.89
ภูเก็ต3,450,294.93
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'กรุงเทพมหานคร' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
สัดส่วนหลัก กลุ่ม 'กรุงเทพมหานคร' คิดเป็นสัดส่วนใหญ่ของผลรวม 'customer_count' (ตาม 'province') จัดกลุ่มตาม: province · ตัววัด: customer_count · sum
กลุ่ม 'กรุงเทพมหานคร' คิดเป็น 53.0% ของผลรวม 'customer_count' ทั้งหมด (จัดกลุ่มตาม 'province')
กราฟนี้บอกอะไรเรา
insight chart
กลุ่มค่า
กรุงเทพมหานคร177,377.0
เชียงใหม่53,662.0
ชลบุรี37,148.0
สัดส่วน: 53.0%
แล้วไงต่อ? กลุ่ม 'กรุงเทพมหานคร' มีสัดส่วนสูงต่อภาพรวม — ติดตามเป็นพิเศษ และประเมินความเสี่ยงจากการพึ่งพากลุ่มเดียว
สัดส่วนหลัก กลุ่ม 'กรุงเทพมหานคร' คิดเป็นสัดส่วนใหญ่ของจำนวน จำนวนข้อมูล (ตาม 'province') จัดกลุ่มตาม: province · count
กลุ่ม 'กรุงเทพมหานคร' คิดเป็น 50.0% ของจำนวน จำนวนข้อมูล ทั้งหมด (จัดกลุ่มตาม 'province')
กราฟนี้บอกอะไรเรา
insight chart
กลุ่มค่า
กรุงเทพมหานคร100.0
เชียงใหม่36.0
ภูเก็ต24.0
สัดส่วน: 50.0%
แล้วไงต่อ? กลุ่ม 'กรุงเทพมหานคร' มีสัดส่วนสูงต่อภาพรวม — ติดตามเป็นพิเศษ และประเมินความเสี่ยงจากการพึ่งพากลุ่มเดียว

ปัญหาคุณภาพข้อมูล (1)

🟡 เตือนshop_name · normalization
จำนวน: 1 (0.5%)
พบปัญหาการ normalize ข้อความ (repeated-char spam) ทำให้สตริงที่ดูเหมือนกันแต่ไม่เท่ากันจริง
ร้านค้าทั่วไป สาขา 111
แล้วไงต่อ? ใช้การ normalize ข้อความ (เช่น pythainlp.util.normalize) ก่อนวิเคราะห์
ดูเพิ่มเติม
Text normalization issues found (repeated-char spam). These cause duplicate-looking but unequal strings. — Apply Unicode normalization (e.g. pythainlp.util.normalize) before analysis.

ความผิดปกติ (3)

🟡 เตือนmonthly_sales · isolation_forest เชิงสถิติ
จำนวน: 24 (12.0%)
Isolation Forest พบค่าผิดปกติ 24 ค่า (คะแนนผิดปกติสุด -0.415; ยิ่งต่ำยิ่งผิดปกติ)
5000000 (score=-0.415)869901.56 (score=-0.283)708279.23 (score=-0.235)569414.83 (score=-0.211)-100 (score=-0.161)
แล้วไงต่อ? ค่าผิดปกติแบบ ML ใช้เสริมวิธีเชิงสถิติ — ควรตรวจสอบจุดที่ถูก flag ประกอบกัน
ดูเพิ่มเติม
Isolation Forest flagged 24 outlier(s) (most anomalous score -0.415; lower = more anomalous). — ML-based outliers complement statistical methods; cross-check flagged points.
🟡 เตือนmonthly_sales · local_outlier_factor เชิงสถิติ
จำนวน: 23 (11.5%)
Local Outlier Factor พบค่าผิดปกติ 23 ค่า (ค่าผิดปกติสุด -38.122; ยิ่งติดลบมากยิ่งผิดปกติ)
5000000 (LOF=-38.122)869901.56 (LOF=-4.913)708279.23 (LOF=-3.607)-100 (LOF=-3.051)569414.83 (LOF=-2.666)
แล้วไงต่อ? LOF จับค่าผิดปกติเชิงความหนาแน่นเฉพาะถิ่น — มีประโยชน์เมื่อสถิติรวมมองไม่เห็น
ดูเพิ่มเติม
Local Outlier Factor flagged 23 outlier(s) (most anomalous factor -38.122; more negative = more anomalous). — LOF finds density-based local outliers; useful when global statistics miss them.
🔵 ข้อมูลmonthly_sales · numeric_outliers เชิงสถิติ
จำนวน: 12 (6.0%)
พบค่าผิดปกติเชิงตัวเลข 12 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 12.16) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป
349189.585000000434444.09337874.31345143.28
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
ดูเพิ่มเติม
12 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 12.16). Heavy-tailed distributions often contain valid business extremes; treat this as context, not automatically as a data defect. — Inspect these values; they may be data-entry errors, units mismatch, genuine extremes, or valid business extremes.

การวิเคราะห์อนุกรมเวลา (วันที่/เวลา: established_date)

monthly_salesความถี่: รายวัน
แนวโน้มไม่มีฤดูกาลไม่มี
ช่องว่างเวลา0ค่าผิดปกติเฉพาะช่วง1
สหสัมพันธ์ในตัว (lag-1)-0.016ค่าเฉลี่ย151154.3204
แล้วไงต่อ?
• พบค่าผิดปกติเฉพาะช่วง (spike) 1 จุด
• ไม่พบแนวโน้มหรือ seasonality ชัดเจน — อาจเป็น random walk หรือข้อมูลนิ่ง
อนุกรมเวลา (พร้อมแนวโน้ม)
timeseries line
การแยกองค์ประกอบ (STL)
STL decomposition
ฟังก์ชันสหสัมพันธ์ในตัว (ACF)
ACF
customer_countความถี่: รายวัน
แนวโน้มไม่มีฤดูกาลไม่มี
ช่องว่างเวลา0ค่าผิดปกติเฉพาะช่วง2
สหสัมพันธ์ในตัว (lag-1)0.0108ค่าเฉลี่ย1674.64
แล้วไงต่อ?
• พบค่าผิดปกติเฉพาะช่วง (spike) 2 จุด
• ไม่พบแนวโน้มหรือ seasonality ชัดเจน — อาจเป็น random walk หรือข้อมูลนิ่ง
อนุกรมเวลา (พร้อมแนวโน้ม)
timeseries line
การแยกองค์ประกอบ (STL)
STL decomposition
ฟังก์ชันสหสัมพันธ์ในตัว (ACF)
ACF

คำแนะนำการทำความสะอาด (0)

✓ ไม่มีคำแนะนำการทำความสะอาด

รายละเอียดคอลัมน์

ส่วนนี้ซ่อนไว้เป็นรายคอลัมน์เพื่อลดความรก เปิดเฉพาะคอลัมน์ที่ต้องการตรวจละเอียด

shop_idตัวระบุ (ID)มีกราฟ
ไม่ว่าง200
เซลล์ที่ว่าง0
ไม่ซ้ำ200
ความถี่ของค่า
value counts

ค่าที่พบบ่อย

SHOP_00011
SHOP_00021
SHOP_00031
SHOP_00041
SHOP_00051
SHOP_00061
SHOP_00071
SHOP_00081
SHOP_00091
SHOP_00101
shop_nameข้อความภาษาไทยมีกราฟ
เครื่องมือตัดคำpythainlp:newmmจำนวนอักขระเฉลี่ย21.46
จำนวนคำเฉลี่ย4.0จำนวนอักขระมัธยฐาน22.0
คำทั้งหมด800คำไม่ซ้ำ203
อักขระน้อยสุด20อักขระมากสุด22

คู่คำที่พบบ่อย: ร้านค้า ทั่วไป (200) ทั่วไป สาขา (200) สาขา 1 (1) สาขา 2 (1) สาขา 3 (1) สาขา 4 (1) สาขา 5 (1) สาขา 6 (1)

คำที่พบบ่อย
top tokens
การกระจายความยาว
length histogram
เมฆคำ
word cloud
categoryข้อความภาษาไทยมีกราฟ
เครื่องมือตัดคำpythainlp:newmmจำนวนอักขระเฉลี่ย15.78
จำนวนคำเฉลี่ย2.69จำนวนอักขระมัธยฐาน17.0
คำทั้งหมด538คำไม่ซ้ำ11
อักขระน้อยสุด11อักขระมากสุด19

คู่คำที่พบบ่อย: อาหาร เครื่องดื่ม (79) เสื้อผ้า แฟชั่น (37) ไอที มือถือ (35) แต่ง บ้าน (18)

คำที่พบบ่อย
top tokens
การกระจายความยาว
length histogram
เมฆคำ
word cloud
provinceหมวดหมู่มีกราฟ
ไม่ว่าง200
เซลล์ที่ว่าง0
ไม่ซ้ำ5
ความถี่ของค่า
value counts

ค่าที่พบบ่อย

กรุงเทพมหานคร100
เชียงใหม่36
ภูเก็ต24
ขอนแก่น20
ชลบุรี20
monthly_salesตัวเลขมีกราฟ
ไม่ว่าง200
เซลล์ที่ว่าง0
ไม่ซ้ำ200
ค่าเฉลี่ย151154.3204
ส่วนเบี่ยงเบนมาตรฐาน363118.3113
ต่ำสุด-100.0
สูงสุด5000000.0
การแจกแจง
value distribution
customer_countตัวเลขมีกราฟ
ไม่ว่าง200
เซลล์ที่ว่าง0
ไม่ซ้ำ193
ค่าเฉลี่ย1674.64
ส่วนเบี่ยงเบนมาตรฐาน834.8487
ต่ำสุด103.0
สูงสุด2998.0
การแจกแจง
value distribution
phone_numberเบอร์โทรศัพท์
ไม่ว่าง200
เซลล์ที่ว่าง0
ไม่ซ้ำ200
established_dateวันที่/เวลา
ไม่ว่าง200
เซลล์ที่ว่าง0
ไม่ซ้ำ200
ต่ำสุด2020-01-01 00:00:00
สูงสุด2020-07-18 00:00:00