Trung vị là một loại trung bình đại diện cho giá trị ở giữa trong tập dữ liệu khi nó được sắp xếp theo thứ tự tăng dần hoặc giảm dần. Không giống như giá trị trung bình yêu cầu tổng của tất cả các giá trị, giá trị trung bình chia tập dữ liệu thành hai nửa bằng nhau. Trong bối cảnh toán học và thống kê, việc hiểu giá trị trung vị là rất quan trọng để phân tích dữ liệu, giúp tóm tắt một tập hợp dữ liệu theo xu hướng trung tâm của nó.
Trong toán học, khái niệm trung vị rất đơn giản. Nếu số lượng quan sát trong tập dữ liệu là số lẻ thì trung vị là số ở giữa. Tuy nhiên, nếu số quan sát là số chẵn thì số trung vị là trung bình cộng của hai số ở giữa. Biểu diễn toán học của việc tìm trung vị khác nhau tùy thuộc vào việc tập dữ liệu có số quan sát là lẻ hay chẵn.
Đối với số lượng quan sát lẻ: Nếu một tập dữ liệu có các giá trị \(n\) được sắp xếp theo thứ tự tăng dần và \(n\) là số lẻ, thì trung vị, \(M\) , là giá trị tại vị trí \(\frac{n+1}{2}\) .
Đối với số lượng quan sát chẵn: Nếu \(n\) là số chẵn thì trung vị, \(M\) , là giá trị trung bình của các giá trị tại các vị trí \(\frac{n}{2}\) và \(\frac{n}{2} + 1\) .
Trong thống kê, số trung vị được sử dụng rộng rãi như thước đo xu hướng trung tâm, đặc biệt khi dữ liệu bị sai lệch hoặc chứa các giá trị ngoại lệ, có thể làm sai lệch giá trị trung bình. Giá trị trung bình cung cấp sự thể hiện chính xác hơn về trung tâm của tập dữ liệu, khiến nó trở nên vô giá trong các nhiệm vụ phân tích dữ liệu trong thế giới thực.
Một trong những đặc điểm chính của số trung vị là độ chắc chắn của nó so với các giá trị ngoại lệ, là những giá trị cực trị khác biệt đáng kể so với các quan sát khác. Vì giá trị trung vị chỉ liên quan đến giá trị ở giữa nên nó không bị ảnh hưởng bởi các giá trị ngoại lệ. Đặc điểm này làm cho số trung vị đặc biệt hữu ích trong các lĩnh vực như bất động sản, tài chính và kinh tế, nơi một vài giá trị cực đoan có thể làm lệch giá trị trung bình, do đó cung cấp thông tin sai lệch.
Ví dụ 1: Xét tập hợp các số: 2, 3, 4, 5, 6. Vì có năm số, là số lẻ nên số trung vị đơn giản là số ở giữa, trong trường hợp này là 4.
Ví dụ 2: Đối với tập dữ liệu: 1, 2, 3, 4, 5, 6, có số quan sát chẵn thì trung vị sẽ là trung bình cộng của số thứ ba và thứ tư: \(\frac{3 + 4}{2} = 3.5\) .
Thao tác với Tập dữ liệu: Để hiểu tác động của các giá trị ngoại lệ lên trung vị, hãy xem xét một tập dữ liệu: 100, 200, 300, 400, 500. Trung vị là 300. Nếu chúng ta thêm hai giá trị cực trị, chẳng hạn như 10.000 và 20.000, vào tập dữ liệu, làm cho nó: 100, 200, 300, 400, 500, 10.000, 20.000, số trung vị chỉ dịch chuyển về mức trung bình của 300 và 400, tức là 350, thể hiện sự vững chắc của số trung vị khi đối mặt với các giá trị ngoại lệ.
Trung vị so với Trung bình: Để hiểu sự khác biệt giữa trung vị và trung bình, hãy xem xét tập dữ liệu về thu nhập hộ gia đình trong một cộng đồng nhỏ: 30.000, 35.000, 40.000, 45.000 và một ngoại lệ là 1.000.000. Thu nhập trung bình sẽ cao hơn đáng kể do có giá trị ngoại lệ, cho thấy mức sống cao hơn mức chính xác đối với hầu hết cộng đồng. Tuy nhiên, thu nhập trung bình sẽ thể hiện chính xác xu hướng trung tâm của thu nhập của cộng đồng, không bị ảnh hưởng bởi ngoại lệ.
Giá trị trung vị cung cấp một phương pháp đơn giản nhưng mạnh mẽ để hiểu được sự phân bố và xu hướng trung tâm của tập dữ liệu. Bằng cách tập trung vào giá trị ở giữa, thay vì tổng của tất cả các giá trị, giá trị trung bình cung cấp sự phản ánh chân thực về điểm trung tâm trong cả tập dữ liệu có kích thước chẵn và lẻ. Khả năng miễn dịch của nó đối với ảnh hưởng của các giá trị ngoại lệ khiến nó trở thành thước đo được ưu tiên trong các lĩnh vực toán học và thống kê khác nhau, củng cố tầm quan trọng của giá trị trung bình trong phân tích và diễn giải dữ liệu.