รายงานวิเคราะห์ข้อมูล ThaiEDA

สร้างโดย ThaiEDA v2.0.0 · 891 จำนวนแถว × 12 จำนวนคอลัมน์
วิธีอ่านรายงานนี้: เริ่มจากบทสรุปด้านบน แล้วดูสิ่งที่ควรทำก่อน แล้วค่อยเจาะรายละเอียดแต่ละคอลัมน์
ประเภทข้อมูลที่ตรวจพบ
ข้อมูลตารางสำหรับ ML
ข้อมูลนี้เหมาะกับการสร้างโมเดลตาราง — มี target, ฟีเจอร์หลายคอลัมน์ และมักเป็น event/impression rows
ภาษาข้อมูลที่ตรวจพบ อังกฤษ
ผลกระทบต่อการวิเคราะห์: ข้อมูลเป็นอังกฤษล้วน จึงข้าม Thai-specific checks อัตโนมัติ
ควรดูอะไรเป็นพิเศษ
  • ตรวจ target leakage และ baseline (CTR/class balance) ก่อนเทรน
  • ตัด ID columns และฟีเจอร์ที่สัมพันธ์กับ target สูงเกินจริง
  • แยก train/validation ตามเวลาเมื่อมี datetime — อย่า shuffle มั่ว
  • จัดการ missing/placeholder ก่อน feature engineering

2. สำคัญที่สุด

1
🟡 เตือน missing_values ใน 2 คอลัมน์
Age, Cabin ขาดข้อมูล 77.1% — อาจทำให้การแบ่งกลุ่ม รายงาน หรือโมเดลเอนเอียง ควรกำหนดวิธีเติม/ตัดก่อนใช้จริง
missing_values พบใน 2 คอลัมน์: Age, Cabin
ผลกระทบ 77.1%
2
🟡 เตือน Cabin
Cabin ขาดข้อมูล 77.1% — อาจทำให้การแบ่งกลุ่ม รายงาน หรือโมเดลเอนเอียง ควรกำหนดวิธีเติม/ตัดก่อนใช้จริง
คอลัมน์มีค่าว่าง 77.1% — ข้อมูลส่วนใหญ่หายไป
ผลกระทบ 77.1%
3
🔵 ข้อมูล Ticket
ตรวจสอบหมวดหมู่หายาก รวมค่าที่พิมพ์ผิดหรือจัดเข้ากลุ่ม 'อื่น ๆ'
พบหมวดหมู่ 681 ค่า ที่ปรากฏน้อยกว่า 1% ของแถว — อาจเป็นการพิมพ์ผิดหรือค่าที่หายาก
ผลกระทบ 100.0%
4
🟡 เตือน Ticket
แปลงเป็นตัวเลขแล้วตรวจค่าที่แปลงไม่ได้ (ค่าแทน เช่น 'N/A', '-')
คอลัมน์เป็นตัวเลข 74% แต่มี 230 ค่า (25.8%) ที่เป็นสตริงไม่ใช่ตัวเลข
ผลกระทบ 25.81%
5
🟡 เตือน Ticket
Ticket มีความซ้ำ 6.7% — เสี่ยงนับยอด/จำนวนลูกค้าซ้ำ ควร deduplicate ก่อนทำ KPI
พบคู่หมวดหมู่ที่คล้ายกันเกือบเหมือน 20 คู่ (ความคล้าย > 0.8)
ผลกระทบ 6.73%
6
🟡 เตือน Age
Age 0.3% อยู่ไกลจากช่วงปกติ — ควรแยกว่าเป็นเคสพิเศษจริงหรือข้อมูลผิดก่อนใช้ในโมเดล/สรุปผล
พบค่าผิดปกติเชิงตัวเลข 2 ค่า ด้วยวิธี คะแนนห่างจากค่าเฉลี่ย (z_score) (ความเบ้ของการกระจาย ≈ 0.39)
ผลกระทบ 0.28%
7
🟡 เตือน SibSp
SibSp 8.3% อยู่ไกลจากช่วงปกติ — ควรแยกว่าเป็นเคสพิเศษจริงหรือข้อมูลผิดก่อนใช้ในโมเดล/สรุปผล
การตรวจจับแบบ ML (Isolation Forest) พบค่าผิดปกติ 74 ค่า (คะแนนผิดปกติสุด -0.332; ยิ่งต่ำยิ่งผิดปกติ)
ผลกระทบ 8.31%
8
🔵 ข้อมูล Fare
Fare 18.0% อยู่ไกลจากช่วงปกติ — ควรแยกว่าเป็นเคสพิเศษจริงหรือข้อมูลผิดก่อนใช้ในโมเดล/สรุปผล
พบค่าผิดปกติเชิงตัวเลข 160 ค่า ด้วยวิธี ค่าที่หลุดจากช่วงปกติ (modified_คะแนนห่างจากค่าเฉลี่ย (z_score)) (ช่วงกลางของข้อมูล (MAD)) (ความเบ้ของการกระจาย ≈ 4.79) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป
ผลกระทบ 17.96%
9
🔵 ข้อมูล Parch
Parch 10.7% อยู่ไกลจากช่วงปกติ — ควรแยกว่าเป็นเคสพิเศษจริงหรือข้อมูลผิดก่อนใช้ในโมเดล/สรุปผล
พบค่าผิดปกติเชิงตัวเลข 95 ค่า ด้วยวิธี ค่าที่หลุดจากช่วงปกติ (modified_คะแนนห่างจากค่าเฉลี่ย (z_score)) (ช่วงกลางของข้อมูล (MAD)) (ความเบ้ของการกระจาย ≈ 2.75) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป
ผลกระทบ 10.66%
10
🔵 ข้อมูล พบ outlier 30 แถวในคอลัมน์ 'SibSp' (z-score ≥ 3.0)
ตรวจสอบ outlier ในคอลัมน์ 'SibSp' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล
คอลัมน์ 'SibSp' มี 30 ค่าที่เป็น ค่าผิดปกติ (outlier) (3.4% ของข้อมูล, max คะแนนห่างจากค่าเฉลี่ย (z-score)=6.8, mean=0.5, std=1.1)
11
🔵 ข้อมูล กลุ่ม 'S' โดดเด่นใน 'SibSp' (ตาม 'Embarked')
ตรวจสอบว่าเหตุใดกลุ่ม 'S' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
กลุ่ม 'S' มีผลรวม 'SibSp' สูงสุดที่ 368.0 — สูงกว่ากลุ่มรอง 5.7 เท่า (จัดกลุ่มตาม 'Embarked')
12
🔵 ข้อมูล พบ outlier 15 แถวในคอลัมน์ 'Parch' (z-score ≥ 3.0)
ตรวจสอบ outlier ในคอลัมน์ 'Parch' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล
คอลัมน์ 'Parch' มี 15 ค่าที่เป็น ค่าผิดปกติ (outlier) (1.7% ของข้อมูล, max คะแนนห่างจากค่าเฉลี่ย (z-score)=7.0, mean=0.4, std=0.8)
บทสรุปผู้บริหาร
พบจุดเตือน 7 เรื่อง — ใช้ต่อได้แต่ควรตรวจก่อนเชิงลึก
ชุดข้อมูลมี 891 แถว × 12 คอลัมน์ พบปัญหาคุณภาพ 2 ข้อ พบความผิดปกติ 9 จุดใน 6 คอลัมน์ ข้อมูลใช้งานได้ แต่ควรตรวจสอบจุดที่เตือนก่อนวิเคราะห์เชิงลึก
  • โหมด Blueprint — สรุปเชิงปฏิบัติ กราฟน้อยลง
  • มีข้อมูล 891 แถว × 12 คอลัมน์
  • ค่าว่างดิบ 8.10% ของข้อมูลทั้งหมด
  • แถวซ้ำ 0 แถว (0.00%)
  • ฐานเป้าหมาย: positive 38.38% (ไม่สมดุล)
  • มี 6 ฟีเจอร์ที่สัมพันธ์กับ target ชัดเจน
  • พบข้อค้นพบที่ควรดู 29 เรื่อง
  • มี insight เชิงธุรกิจ 8 เรื่อง

สิ่งที่ควรทำก่อน

1
🟡 เตือน missing_values
คอลัมน์ 'Cabin': คอลัมน์มีค่าว่าง 687 ค่า (77.1%) (พบ 687 แถว, 77.1%)
แล้วไงต่อ? จัดการค่าว่างก่อนวิเคราะห์ (เติมค่า, flag, หรือลบตามความเหมาะสม)
2
🟡 เตือน คอลัมน์มีค่าว่างสูงผิดปกติ
คอลัมน์ 'Cabin': คอลัมน์มีค่าว่าง 77.1% — ข้อมูลส่วนใหญ่หายไป (687 รายการ, 77.1%)
แล้วไงต่อ? พิจารณาตัดคอลัมน์ทิ้ง หรือตรวจสอบสาเหตุที่ข้อมูลหายไป
3
🟡 เตือน พบการปนชนิดข้อมูล (ตัวเลข/ข้อความ)
คอลัมน์ 'Ticket': คอลัมน์เป็นตัวเลข 74% แต่มี 230 ค่า (25.8%) ที่เป็นสตริงไม่ใช่ตัวเลข (230 รายการ, 25.8%)
แล้วไงต่อ? แปลงเป็นตัวเลขแล้วตรวจค่าที่แปลงไม่ได้ (ค่าแทน เช่น 'N/A', '-')
4
🟡 เตือน พบค่าผิดปกติจากโมเดล (Isolation Forest)
คอลัมน์ 'SibSp': Isolation Forest พบค่าผิดปกติ 74 ค่า (คะแนนผิดปกติสุด -0.332; ยิ่งต่ำยิ่งผิดปกติ) (74 รายการ, 8.3%)
แล้วไงต่อ? ค่าผิดปกติแบบ ML ใช้เสริมวิธีเชิงสถิติ — ควรตรวจสอบจุดที่ถูก flag ประกอบกัน
5
🟡 เตือน พบหมวดหมู่ที่คล้ายกันจนน่าสงสัยว่าซ้ำ
คอลัมน์ 'Ticket': พบคู่หมวดหมู่ที่คล้ายกันเกือบเหมือน 20 คู่ (ความคล้าย > 0.8) (60 รายการ, 6.7%)
แล้วไงต่อ? ค่าเหล่านี้น่าจะหมายถึงสิ่งเดียวกัน (เช่น 'กรุงเทพ' กับ 'กรุงเทพฯ') ควรทำให้เป็นค่ามาตรฐานเดียว

แผนสร้างโมเดล

ฐานเป้าหมาย

Survived
อัตรา positive: 38.38%
สมดุลคลาส: ไม่สมดุล
  • 0: 549
  • 1: 342

สงสัย target leakage

✓ ไม่พบฟีเจอร์ที่สงสัย target leakage

ฟีเจอร์ที่สัมพันธ์กับเป้าหมาย

  • Sex anova คะแนน=372.40572360221387
  • Pclass correlation คะแนน=-0.33848103596101514
  • Fare correlation คะแนน=0.2573065198151091
  • Embarked anova คะแนน=13.60527044569358
  • Parch correlation คะแนน=0.08162940708348346
  • Age correlation คะแนน=-0.07722109457351102

คอลัมน์ที่ควรตัดออก

  • PassengerId

ขั้นตอนถัดไป

ภาพรวม

จำนวนแถว
891
จำนวนคอลัมน์
12
เซลล์ทั้งหมด
10,692
เซลล์ที่ว่าง
866 (8.1%)
แถวซ้ำ
0

ประเภทคอลัมน์

ตัวเลข 6หมวดหมู่ 3ข้อความภาษาอังกฤษ 2ตัวระบุ (ID) 1
⚠ flag 687 ค่าว่างในคอลัมน์ 'Cabin' (ไม่เติมค่า — คง missing ไว้) — เตือน: missing 77% (> 40%) ควรพิจารณา drop หรือ impute ด้วย domain knowledge
⚠ ข้าม timeseries (blueprint/ml_tabular — แถว event ไม่ใช่อนุกรมเวลา)

คอลัมน์ที่ควรระวัง

🟡 เตือน Ticket
  • คอลัมน์เป็นตัวเลข 74% แต่มี 230 ค่า (25.8%) ที่เป็นสตริงไม่ใช่ตัวเลข
  • พบคู่หมวดหมู่ที่คล้ายกันเกือบเหมือน 20 คู่ (ความคล้าย > 0.8)
  • พบหมวดหมู่ 681 ค่า ที่ปรากฏน้อยกว่า 1% ของแถว — อาจเป็นการพิมพ์ผิดหรือค่าที่หายาก
🟡 เตือน Cabin
  • คอลัมน์มีค่าว่าง 687 ค่า (77.1%)
  • คอลัมน์มีค่าว่าง 77.1% — ข้อมูลส่วนใหญ่หายไป
🟡 เตือน Age
  • คอลัมน์มีค่าว่าง 177 ค่า (19.9%)
  • พบค่าผิดปกติเชิงตัวเลข 2 ค่า ด้วยวิธี z_score (ความเบ้ของการกระจาย ≈ 0.39)
🟡 เตือน SibSp
  • Isolation Forest พบค่าผิดปกติ 74 ค่า (คะแนนผิดปกติสุด -0.332; ยิ่งต่ำยิ่งผิดปกติ)
  • พบค่าผิดปกติเชิงตัวเลข 46 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 3.70) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป
🔵 ข้อมูล Fare
  • พบค่าผิดปกติเชิงตัวเลข 160 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 4.79) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป
🔵 ข้อมูล Parch
  • พบค่าผิดปกติเชิงตัวเลข 95 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 2.75) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป

การกระจายและสหสัมพันธ์

แผนภาพกล่อง
box plot
กราฟนี้บอกอะไรเรา: จุดที่หลุดจากกล่องคือค่าที่ควรตรวจว่าเป็น outlier จริงหรือไม่

ข้อมูลที่ขาดหาย

เมทริกซ์ค่าที่ขาดหาย
missing value matrix
กราฟนี้บอกอะไรเรา: แถบว่างช่วยบอกว่าค่าว่างกระจุกตัวช่วงใดหรือคอลัมน์ใด
สหสัมพันธ์การขาดหาย
missing nullity correlation heatmap
กราฟนี้บอกอะไรเรา: ถ้าค่าว่างเกิดพร้อมกันหลายคอลัมน์ อาจเกิดจากขั้นตอนเก็บข้อมูลเดียวกัน

ข้อค้นพบสำคัญ 10 เตือน 19 ข้อมูล

แสดง 12 จาก 29 ข้อค้นพบสำคัญ
🟡 เตือน คุณภาพ missing_values
คอลัมน์ 'Cabin': คอลัมน์มีค่าว่าง 687 ค่า (77.1%) (พบ 687 แถว, 77.1%)
แล้วไงต่อ? จัดการค่าว่างก่อนวิเคราะห์ (เติมค่า, flag, หรือลบตามความเหมาะสม)
🟡 เตือน คุณภาพ missing_values
คอลัมน์ 'Age': คอลัมน์มีค่าว่าง 177 ค่า (19.9%) (พบ 177 แถว, 19.9%)
แล้วไงต่อ? จัดการค่าว่างก่อนวิเคราะห์ (เติมค่า, flag, หรือลบตามความเหมาะสม)
🟡 เตือน โครงสร้าง คอลัมน์มีค่าว่างสูงผิดปกติ
คอลัมน์ 'Cabin': คอลัมน์มีค่าว่าง 77.1% — ข้อมูลส่วนใหญ่หายไป (687 รายการ, 77.1%)
แล้วไงต่อ? พิจารณาตัดคอลัมน์ทิ้ง หรือตรวจสอบสาเหตุที่ข้อมูลหายไป
🟡 เตือน โครงสร้าง พบการปนชนิดข้อมูล (ตัวเลข/ข้อความ)
คอลัมน์ 'Ticket': คอลัมน์เป็นตัวเลข 74% แต่มี 230 ค่า (25.8%) ที่เป็นสตริงไม่ใช่ตัวเลข (230 รายการ, 25.8%)
แล้วไงต่อ? แปลงเป็นตัวเลขแล้วตรวจค่าที่แปลงไม่ได้ (ค่าแทน เช่น 'N/A', '-')
🟡 เตือน ความผิดปกติ พบค่าผิดปกติจากโมเดล (Isolation Forest)
คอลัมน์ 'SibSp': Isolation Forest พบค่าผิดปกติ 74 ค่า (คะแนนผิดปกติสุด -0.332; ยิ่งต่ำยิ่งผิดปกติ) (74 รายการ, 8.3%)
แล้วไงต่อ? ค่าผิดปกติแบบ ML ใช้เสริมวิธีเชิงสถิติ — ควรตรวจสอบจุดที่ถูก flag ประกอบกัน
🟡 เตือน ความผิดปกติ พบหมวดหมู่ที่คล้ายกันจนน่าสงสัยว่าซ้ำ
คอลัมน์ 'Ticket': พบคู่หมวดหมู่ที่คล้ายกันเกือบเหมือน 20 คู่ (ความคล้าย > 0.8) (60 รายการ, 6.7%)
แล้วไงต่อ? ค่าเหล่านี้น่าจะหมายถึงสิ่งเดียวกัน (เช่น 'กรุงเทพ' กับ 'กรุงเทพฯ') ควรทำให้เป็นค่ามาตรฐานเดียว
🟡 เตือน ความผิดปกติ พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'Age': พบค่าผิดปกติเชิงตัวเลข 2 ค่า ด้วยวิธี z_score (ความเบ้ของการกระจาย ≈ 0.39) (2 รายการ, 0.3%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
🟡 เตือน การกระจาย การกระจายเบ้มาก
คอลัมน์ 'SibSp' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=3.70) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'SibSp' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน การกระจาย การกระจายเบ้มาก
คอลัมน์ 'Parch' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=2.75) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'Parch' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🟡 เตือน การกระจาย การกระจายเบ้มาก
คอลัมน์ 'Fare' มีการกระจายเบ้ขวา (หางยาวด้านมาก) (skew=4.79) — ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางที่แท้จริง
แล้วไงต่อ? พิจารณาแปลง 'Fare' ด้วย log/sqrt/Box-Cox ก่อนวิเคราะห์หรือสร้างโมเดล
🔵 ข้อมูล ความผิดปกติ พบหมวดหมู่หายาก (<1%)
คอลัมน์ 'Ticket': พบหมวดหมู่ 681 ค่า ที่ปรากฏน้อยกว่า 1% ของแถว — อาจเป็นการพิมพ์ผิดหรือค่าที่หายาก (891 รายการ, 100.0%)
แล้วไงต่อ? ตรวจสอบหมวดหมู่หายาก รวมค่าที่พิมพ์ผิดหรือจัดเข้ากลุ่ม 'อื่น ๆ'
🔵 ข้อมูล ความผิดปกติ พบค่าผิดปกติเชิงตัวเลข (outlier)
คอลัมน์ 'Fare': พบค่าผิดปกติเชิงตัวเลข 160 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 4.79) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป (160 รายการ, 18.0%)
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง

ข้อค้นพบจากการวิเคราะห์คอลัมน์ผสม (8)

pattern_outlier พบ outlier 30 แถวในคอลัมน์ 'SibSp' (z-score ≥ 3.0) จัดกลุ่มตาม: SibSp · ตัววัด: SibSp · outlier
คอลัมน์ 'SibSp' มี 30 ค่าที่เป็น outlier (3.4% ของข้อมูล, max z-score=6.8, mean=0.5, std=1.1)
แล้วไงต่อ? ตรวจสอบ outlier ในคอลัมน์ 'SibSp' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล
pattern_outlier พบ outlier 15 แถวในคอลัมน์ 'Parch' (z-score ≥ 3.0) จัดกลุ่มตาม: Parch · ตัววัด: Parch · outlier
คอลัมน์ 'Parch' มี 15 ค่าที่เป็น outlier (1.7% ของข้อมูล, max z-score=7.0, mean=0.4, std=0.8)
แล้วไงต่อ? ตรวจสอบ outlier ในคอลัมน์ 'Parch' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล
pattern_outlier พบ outlier 20 แถวในคอลัมน์ 'Fare' (z-score ≥ 3.0) จัดกลุ่มตาม: Fare · ตัววัด: Fare · outlier
คอลัมน์ 'Fare' มี 20 ค่าที่เป็น outlier (2.2% ของข้อมูล, max z-score=9.7, mean=32.2, std=49.7)
แล้วไงต่อ? ตรวจสอบ outlier ในคอลัมน์ 'Fare' — อาจเป็นค่าผิดปกติจริงหรือการกรอกผิด พิจารณา clip/transform ก่อนนำไปวิเคราะห์หรือสร้างโมเดล
pattern_correlation 'Pclass' และ 'Fare' มีสหสัมพันธ์ Spearman (non-linear)สูง (ρ=-0.73) จัดกลุ่มตาม: Pclass · ตัววัด: Fare · correlation
คอลัมน์ 'Pclass' และ 'Fare' มีสหสัมพันธ์ Spearman (non-linear)เป็นลบที่ strong (ρ=-0.731, n=714) — ค่าเคลื่อนไหวไปด้วยกัน
แล้วไงต่อ? คอลัมน์ทั้งสองสัมพันธ์กันสูง — อาจวัดสิ่งเดียวกัน พิจารณาใช้คอลัมน์ใดคอลัมน์หนึ่ง หรือรวมเป็น feature เดียวเพื่อกัน multicollinearity
กลุ่มโดดเด่น กลุ่ม 'S' โดดเด่นใน 'SibSp' (ตาม 'Embarked') จัดกลุ่มตาม: Embarked · ตัววัด: SibSp · sum
กลุ่ม 'S' มีผลรวม 'SibSp' สูงสุดที่ 368.0 — สูงกว่ากลุ่มรอง 5.7 เท่า (จัดกลุ่มตาม 'Embarked')
กราฟนี้บอกอะไรเรา
insight chart
กลุ่มค่า
S368.0
C65.0
Q33.0
แล้วไงต่อ? ตรวจสอบว่าเหตุใดกลุ่ม 'S' จึงโดดเด่น และพิจารณาใช้เป็นจุดโฟกัสในการวิเคราะห์/ตัดสินใจ
เปรียบเทียบกลุ่ม กลุ่ม 'female' ต่างจากกลุ่มอื่นอย่างมีนัยสำคัญใน 'Survived' (ตาม 'Sex') จัดกลุ่มตาม: Sex · ตัววัด: Survived · mean
กลุ่ม 'female' มีค่าเฉลี่ย 'Survived' 293% สูงกว่ากลุ่มอื่น (เฉลี่ย 0.7 เทียบกับ 0.2, p=0.000)
กราฟนี้บอกอะไรเรา
insight chart
ส่วนต่าง: 292.8% · ค่าเฉลี่ย: 0.74 vs 0.19 · ค่า p=0.0 · n=314/577
แล้วไงต่อ? ความแตกต่างระหว่างกลุ่มมีนัยสำคัญ — พิจารณาแยกวิเคราะห์ 'Survived' ตาม 'Sex' หรือใช้เป็นฟีเจอร์ในการสร้างโมเดล
เปรียบเทียบกลุ่ม กลุ่ม 'C' ต่างจากกลุ่มอื่นอย่างมีนัยสำคัญใน 'Fare' (ตาม 'Embarked') จัดกลุ่มตาม: Embarked · ตัววัด: Fare · mean
กลุ่ม 'C' มีค่าเฉลี่ย 'Fare' 134% สูงกว่ากลุ่มอื่น (เฉลี่ย 60.0 เทียบกับ 25.6, p=0.000)
กราฟนี้บอกอะไรเรา
insight chart
ส่วนต่าง: 134.1% · ค่าเฉลี่ย: 59.95 vs 25.61 · ค่า p=0.0 · n=168/721
แล้วไงต่อ? ความแตกต่างระหว่างกลุ่มมีนัยสำคัญ — พิจารณาแยกวิเคราะห์ 'Fare' ตาม 'Embarked' หรือใช้เป็นฟีเจอร์ในการสร้างโมเดล
สัดส่วนหลัก กลุ่ม 'S' คิดเป็นสัดส่วนใหญ่ของผลรวม 'Parch' (ตาม 'Embarked') จัดกลุ่มตาม: Embarked · ตัววัด: Parch · sum
กลุ่ม 'S' คิดเป็น 78.2% ของผลรวม 'Parch' ทั้งหมด (จัดกลุ่มตาม 'Embarked')
กราฟนี้บอกอะไรเรา
insight chart
กลุ่มค่า
S266.0
C61.0
Q13.0
สัดส่วน: 78.2%
แล้วไงต่อ? กลุ่ม 'S' มีสัดส่วนสูงต่อภาพรวม — ติดตามเป็นพิเศษ และประเมินความเสี่ยงจากการพึ่งพากลุ่มเดียว

คุณภาพข้อมูล: ก่อน vs หลังทำความสะอาด

วิกฤตเตือนข้อมูลคะแนนก่อน/คะแนนหลัง
ก่อน02199 (A)
หลัง02099 (A)
รายการที่แก้ไขแล้ว: whitespace:Name

แผนการทำความสะอาด

การทำความสะอาดที่แนะนำ: whitespace, buddhist_era
ข้าม (ไม่จำเป็น): encoding, zwspace, numerals, duplicates, missing

ปัญหาคุณภาพข้อมูล (2)

🟡 เตือนCabin · missing_values
จำนวน: 687 (77.1%)
คอลัมน์มีค่าว่าง 687 ค่า (77.1%)
<NA>
แล้วไงต่อ? จัดการค่าว่างก่อนวิเคราะห์ (เติมค่า, flag, หรือลบตามความเหมาะสม)
ดูเพิ่มเติม
Column has 687 missing values (77.1%). — Handle missing values before analysis (impute, flag, or drop as appropriate).
🟡 เตือนAge · missing_values
จำนวน: 177 (19.87%)
คอลัมน์มีค่าว่าง 177 ค่า (19.9%)
<NA>
แล้วไงต่อ? จัดการค่าว่างก่อนวิเคราะห์ (เติมค่า, flag, หรือลบตามความเหมาะสม)
ดูเพิ่มเติม
Column has 177 missing values (19.9%). — Handle missing values before analysis (impute, flag, or drop as appropriate).

ความผิดปกติ (9)

🟡 เตือนCabin · high_null_spike รูปแบบ
จำนวน: 687 (77.1%)
คอลัมน์มีค่าว่าง 77.1% — ข้อมูลส่วนใหญ่หายไป
แล้วไงต่อ? พิจารณาตัดคอลัมน์ทิ้ง หรือตรวจสอบสาเหตุที่ข้อมูลหายไป
ดูเพิ่มเติม
Column is 77.1% null — most values are missing. — Consider dropping the column or investigating why data is missing.
🟡 เตือนTicket · type_mixing รูปแบบ
จำนวน: 230 (25.81%)
คอลัมน์เป็นตัวเลข 74% แต่มี 230 ค่า (25.8%) ที่เป็นสตริงไม่ใช่ตัวเลข
A/5 21171PC 17599STON/O2. 3101282PP 9549A/5. 2151
แล้วไงต่อ? แปลงเป็นตัวเลขแล้วตรวจค่าที่แปลงไม่ได้ (ค่าแทน เช่น 'N/A', '-')
ดูเพิ่มเติม
Column is 74% numeric but 230 value(s) (25.8%) are non-numeric strings. — Coerce to numeric and inspect non-parseable values (placeholders like 'N/A', '-').
🟡 เตือนSibSp · isolation_forest เชิงสถิติ
จำนวน: 74 (8.31%)
Isolation Forest พบค่าผิดปกติ 74 ค่า (คะแนนผิดปกติสุด -0.332; ยิ่งต่ำยิ่งผิดปกติ)
8 (score=-0.332)8 (score=-0.332)8 (score=-0.332)8 (score=-0.332)8 (score=-0.332)
แล้วไงต่อ? ค่าผิดปกติแบบ ML ใช้เสริมวิธีเชิงสถิติ — ควรตรวจสอบจุดที่ถูก flag ประกอบกัน
ดูเพิ่มเติม
Isolation Forest flagged 74 outlier(s) (most anomalous score -0.332; lower = more anomalous). — ML-based outliers complement statistical methods; cross-check flagged points.
🟡 เตือนTicket · fuzzy_duplicates หมวดหมู่
จำนวน: 60 (6.73%)
พบคู่หมวดหมู่ที่คล้ายกันเกือบเหมือน 20 คู่ (ความคล้าย > 0.8)
347082.0 ↔ 347088.0347082.0 ↔ 347080.0347082.0 ↔ 347081.0347082.0 ↔ 347068.0347082.0 ↔ 347083.0
แล้วไงต่อ? ค่าเหล่านี้น่าจะหมายถึงสิ่งเดียวกัน (เช่น 'กรุงเทพ' กับ 'กรุงเทพฯ') ควรทำให้เป็นค่ามาตรฐานเดียว
ดูเพิ่มเติม
20 near-duplicate category pair(s) detected (similarity > 0.8). — These likely refer to the same value (e.g. 'กรุงเทพ' vs 'กรุงเทพฯ'); standardize them.
🟡 เตือนAge · numeric_outliers เชิงสถิติ
จำนวน: 2 (0.28%)
พบค่าผิดปกติเชิงตัวเลข 2 ค่า ด้วยวิธี z_score (ความเบ้ของการกระจาย ≈ 0.39)
8074
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
ดูเพิ่มเติม
2 numeric outlier(s) detected using the z_score method (distribution skew ≈ 0.39). — Inspect these values; they may be data-entry errors, units mismatch, genuine extremes, or valid business extremes.
🔵 ข้อมูลTicket · rare_categories หมวดหมู่
จำนวน: 891 (100.0%)
พบหมวดหมู่ 681 ค่า ที่ปรากฏน้อยกว่า 1% ของแถว — อาจเป็นการพิมพ์ผิดหรือค่าที่หายาก
312993.0 (×1)237442.0 (×1)113794.0 (×1)350404.0 (×1)7545.0 (×1)
แล้วไงต่อ? ตรวจสอบหมวดหมู่หายาก รวมค่าที่พิมพ์ผิดหรือจัดเข้ากลุ่ม 'อื่น ๆ'
ดูเพิ่มเติม
681 category value(s) occur in <1% of rows — possible typos or rare cases. — Review rare categories; consolidate typos or group into an 'other' bucket.
🔵 ข้อมูลFare · numeric_outliers เชิงสถิติ
จำนวน: 160 (17.96%)
พบค่าผิดปกติเชิงตัวเลข 160 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 4.79) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป
71.283353.151.8625263146.5208
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
ดูเพิ่มเติม
160 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 4.79). Heavy-tailed distributions often contain valid business extremes; treat this as context, not automatically as a data defect. — Inspect these values; they may be data-entry errors, units mismatch, genuine extremes, or valid business extremes.
🔵 ข้อมูลParch · numeric_outliers เชิงสถิติ
จำนวน: 95 (10.66%)
พบค่าผิดปกติเชิงตัวเลข 95 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 2.75) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป
25522
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
ดูเพิ่มเติม
95 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 2.75). Heavy-tailed distributions often contain valid business extremes; treat this as context, not automatically as a data defect. — Inspect these values; they may be data-entry errors, units mismatch, genuine extremes, or valid business extremes.
🔵 ข้อมูลSibSp · numeric_outliers เชิงสถิติ
จำนวน: 46 (5.16%)
พบค่าผิดปกติเชิงตัวเลข 46 ค่า ด้วยวิธี modified_z_score (MAD) (ความเบ้ของการกระจาย ≈ 3.70) การกระจายแบบหางยาวมักมีค่าสุดขั้วทางธุรกิจที่ถูกต้อง จึงไม่ใช่ defect ของข้อมูลเสมอไป
34334
แล้วไงต่อ? ตรวจสอบค่าเหล่านี้ — อาจเป็นการกรอกผิด หน่วยไม่ตรงกัน ค่าสุดขั้วจริง หรือค่าสุดขั้วทางธุรกิจที่ถูกต้อง
ดูเพิ่มเติม
46 numeric outlier(s) detected using the modified_z_score (MAD) method (distribution skew ≈ 3.70). Heavy-tailed distributions often contain valid business extremes; treat this as context, not automatically as a data defect. — Inspect these values; they may be data-entry errors, units mismatch, genuine extremes, or valid business extremes.

การวิเคราะห์ตัวแปรเป้าหมาย (คอลัมน์เป้าหมาย: Survived)

คอลัมน์ความสัมพันธ์คะแนนค่า pแล้วไงต่อ?
SexANOVA (F-test)372.40570.0ANOVA F ของ 'Sex' เทียบกับ 'Survived' = 372.406 — มีนัยสำคัญทางสถิติ (p=0.0000 < 0.05)
Pclassสหสัมพันธ์ (Pearson)-0.33850.0สหสัมพันธ์ Pearson ระหว่าง 'Pclass' กับ 'Survived' = -0.338 — มีนัยสำคัญทางสถิติ (p=0.0000 < 0.05)
Fareสหสัมพันธ์ (Pearson)0.25730.0สหสัมพันธ์ Pearson ระหว่าง 'Fare' กับ 'Survived' = 0.257 — มีนัยสำคัญทางสถิติ (p=0.0000 < 0.05)
EmbarkedANOVA (F-test)13.60530.0ANOVA F ของ 'Embarked' เทียบกับ 'Survived' = 13.605 — มีนัยสำคัญทางสถิติ (p=0.0000 < 0.05)
Parchสหสัมพันธ์ (Pearson)0.08160.0148สหสัมพันธ์ Pearson ระหว่าง 'Parch' กับ 'Survived' = 0.082 — มีนัยสำคัญทางสถิติ (p=0.0148 < 0.05)
Ageสหสัมพันธ์ (Pearson)-0.07720.0391สหสัมพันธ์ Pearson ระหว่าง 'Age' กับ 'Survived' = -0.077 — มีนัยสำคัญทางสถิติ (p=0.0391 < 0.05)
SibSpสหสัมพันธ์ (Pearson)-0.03530.2922สหสัมพันธ์ Pearson ระหว่าง 'SibSp' กับ 'Survived' = -0.035 — ไม่มีนัยสำคัญทางสถิติ (p=0.2922 ≥ 0.05)

การทำความสะอาด (6)

รวมเซลล์ที่เปลี่ยน: 1,539 · การดำเนินการที่มีผลมากสุด: handle_missing_values (flag 687 ค่าว่างในคอลัมน์ 'Cabin' (ไม่เติมค่า — คง missing ไว้) — เตือน: missing 77% (> 40%) ควรพิจารณา drop หรือ impute ด้วย domain knowledge — 687)
คอลัมน์การดำเนินการแถวที่ได้รับผลกระทบก่อน → หลัง
Namestrip_whitespace
ตัด/ยุบช่องว่าง และแปลง non-breaking space เป็นช่องว่างปกติ
2'Hewlett, Mrs. (Mary D Kingcome) ''Hewlett, Mrs. (Mary D Kingcome)''Daly, Mr. Peter Denis ''Daly, Mr. Peter Denis'
Ticketcoerce_numeric
แปลงคอลัมน์เป็นตัวเลข (661 ค่า) + แทนที่ placeholder 0 ค่าด้วย NaN
661
Agehandle_missing_values
flag 177 ค่าว่างในคอลัมน์ 'Age' (ไม่เติมค่า — คง missing ไว้)
177
Cabinhandle_missing_values
flag 687 ค่าว่างในคอลัมน์ 'Cabin' (ไม่เติมค่า — คง missing ไว้) — เตือน: missing 77% (> 40%) ควรพิจารณา drop หรือ impute ด้วย domain knowledge
687
Embarkedhandle_missing_values
flag 2 ค่าว่างในคอลัมน์ 'Embarked' (ไม่เติมค่า — คง missing ไว้)
2
(entire df)downcast_dtypes
ลด memory 0.145→0.086 MB (-41.0%), ปรับ 10 คอลัมน์
10

คำแนะนำการทำความสะอาด (0)

✓ ไม่มีคำแนะนำการทำความสะอาด

รายละเอียดคอลัมน์

ส่วนนี้ซ่อนไว้เป็นรายคอลัมน์เพื่อลดความรก เปิดเฉพาะคอลัมน์ที่ต้องการตรวจละเอียด

PassengerIdตัวระบุ (ID)มีกราฟ
ไม่ว่าง891
เซลล์ที่ว่าง0
ไม่ซ้ำ891
การแจกแจง
value distribution
ความถี่ของค่า
value counts

ค่าที่พบบ่อย

11
21
31
41
51
61
71
81
91
101
Survivedตัวเลขมีกราฟ
ไม่ว่าง891
เซลล์ที่ว่าง0
ไม่ซ้ำ2
ค่าเฉลี่ย0.3838
ส่วนเบี่ยงเบนมาตรฐาน0.4866
ต่ำสุด0.0
สูงสุด1.0
การแจกแจง
value distribution
Pclassตัวเลขมีกราฟ
ไม่ว่าง891
เซลล์ที่ว่าง0
ไม่ซ้ำ3
ค่าเฉลี่ย2.3086
ส่วนเบี่ยงเบนมาตรฐาน0.8361
ต่ำสุด1.0
สูงสุด3.0
การแจกแจง
value distribution
Nameข้อความภาษาอังกฤษ
ไม่ว่าง891
เซลล์ที่ว่าง0
ไม่ซ้ำ891
Sexหมวดหมู่มีกราฟ
ไม่ว่าง891
เซลล์ที่ว่าง0
ไม่ซ้ำ2
ความถี่ของค่า
value counts

ค่าที่พบบ่อย

male577
female314
Ageตัวเลขมีกราฟ
ไม่ว่าง714
เซลล์ที่ว่าง177
ไม่ซ้ำ88
ค่าเฉลี่ย29.6991
ส่วนเบี่ยงเบนมาตรฐาน14.5265
ต่ำสุด0.41999998688697815
สูงสุด80.0
การแจกแจง
value distribution
SibSpตัวเลขมีกราฟ
ไม่ว่าง891
เซลล์ที่ว่าง0
ไม่ซ้ำ7
ค่าเฉลี่ย0.523
ส่วนเบี่ยงเบนมาตรฐาน1.1027
ต่ำสุด0.0
สูงสุด8.0
การแจกแจง
value distribution
Parchตัวเลขมีกราฟ
ไม่ว่าง891
เซลล์ที่ว่าง0
ไม่ซ้ำ7
ค่าเฉลี่ย0.3816
ส่วนเบี่ยงเบนมาตรฐาน0.8061
ต่ำสุด0.0
สูงสุด6.0
การแจกแจง
value distribution
Ticketหมวดหมู่มีกราฟ
ไม่ว่าง891
เซลล์ที่ว่าง0
ไม่ซ้ำ681
ความถี่ของค่า
value counts

ค่าที่พบบ่อย

347082.07
1601.07
CA. 23437
3101295.06
CA 21446
347088.06
382652.05
S.O.C. 148795
349909.04
347077.04
Fareตัวเลขมีกราฟ
ไม่ว่าง891
เซลล์ที่ว่าง0
ไม่ซ้ำ248
ค่าเฉลี่ย32.2042
ส่วนเบี่ยงเบนมาตรฐาน49.6934
ต่ำสุด0.0
สูงสุด512.3292236328125
การแจกแจง
value distribution
Cabinข้อความภาษาอังกฤษ
ไม่ว่าง204
เซลล์ที่ว่าง687
ไม่ซ้ำ147
Embarkedหมวดหมู่มีกราฟ
ไม่ว่าง889
เซลล์ที่ว่าง2
ไม่ซ้ำ3
ความถี่ของค่า
value counts

ค่าที่พบบ่อย

S644
C168
Q77