- Tầm quan trọng của tính tương đồng
- Độ co giãn đồng nhất so với phương sai thay đổi
- Kiểm tra tính đồng nhất
- Các biến chuẩn hóa
- Các bài kiểm tra phi đồ họa về độ tương đồng
- Người giới thiệu
Tính tương đồng trong mô hình thống kê dự đoán xảy ra nếu tất cả các nhóm dữ liệu của một hoặc nhiều quan sát, mẫu phương sai (hoặc độc lập) đối với các biến giải thích không đổi.
Một mô hình hồi quy có thể đồng biến hoặc không, trong trường hợp đó chúng ta nói đến phương sai thay đổi.
Hình 1. Năm tập dữ liệu và sự phù hợp hồi quy của tập hợp. Phương sai đối với giá trị dự đoán là như nhau trong mỗi nhóm. (upav-biblioteca.org)
Mô hình hồi quy thống kê của một số biến độc lập được gọi là đồng biến, chỉ khi phương sai của sai số của biến dự đoán (hoặc độ lệch chuẩn của biến phụ thuộc) vẫn đồng nhất đối với các nhóm giá trị khác nhau của biến giải thích hoặc biến độc lập.
Trong năm nhóm dữ liệu trong Hình 1, phương sai trong mỗi nhóm đã được tính toán, đối với giá trị được ước tính bởi hồi quy, dẫn đến giống nhau trong mỗi nhóm. Ngoài ra, giả định rằng dữ liệu tuân theo phân phối chuẩn.
Ở cấp độ đồ họa, điều đó có nghĩa là các điểm nằm rải rác hoặc rải rác như nhau xung quanh giá trị được dự đoán bởi sự phù hợp hồi quy và mô hình hồi quy có cùng sai số và giá trị đối với phạm vi của biến giải thích.
Tầm quan trọng của tính tương đồng
Để minh họa tầm quan trọng của phương sai thay đổi trong thống kê tiên đoán, cần phải đối chiếu với hiện tượng ngược lại, phương sai thay đổi.
Độ co giãn đồng nhất so với phương sai thay đổi
Trong trường hợp của Hình 1, trong đó có sự đồng biến, đúng là:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Trong đó Var ((yi-Yi); Xi) đại diện cho phương sai, cặp (xi, yi) đại diện cho dữ liệu từ nhóm i, trong khi Yi là giá trị được dự đoán bởi hồi quy cho giá trị trung bình Xi của nhóm. Phương sai của n dữ liệu từ nhóm i được tính như sau:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Ngược lại, khi xảy ra phương sai thay đổi, mô hình hồi quy có thể không hợp lệ cho toàn bộ vùng mà nó được tính toán. Hình 2 cho thấy một ví dụ về tình huống này.
Hình 2. Nhóm dữ liệu thể hiện phương sai thay đổi. (Công phu riêng)
Hình 2 đại diện cho ba nhóm dữ liệu và sự phù hợp của tập hợp sử dụng hồi quy tuyến tính. Cần lưu ý rằng dữ liệu ở nhóm thứ hai và thứ ba phân tán hơn so với nhóm thứ nhất. Biểu đồ trong hình 2 cũng cho thấy giá trị trung bình của mỗi nhóm và thanh sai số ± σ của nó, với độ lệch chuẩn σ của mỗi nhóm dữ liệu. Cần nhớ rằng độ lệch chuẩn σ là căn bậc hai của phương sai.
Rõ ràng là trong trường hợp phương sai thay đổi, sai số ước lượng hồi quy đang thay đổi trong phạm vi giá trị của biến giải thích hoặc biến độc lập và trong những khoảng thời gian mà sai số này rất lớn, dự đoán hồi quy là không đáng tin cậy hoặc không áp dụng.
Trong mô hình hồi quy, sai số hoặc phần dư (và -Y) phải được phân phối với phương sai bằng nhau (σ ^ 2) trong suốt khoảng giá trị của biến độc lập. Chính vì lý do này mà một mô hình hồi quy tốt (tuyến tính hoặc phi tuyến tính) phải vượt qua được bài kiểm tra đồng biến.
Kiểm tra tính đồng nhất
Các điểm trong hình 3 tương ứng với dữ liệu của một nghiên cứu tìm kiếm mối quan hệ giữa giá cả (tính bằng đô la) của những ngôi nhà dưới dạng hàm của kích thước hoặc diện tích tính bằng mét vuông.
Mô hình đầu tiên được thử nghiệm là mô hình hồi quy tuyến tính. Trước hết, cần lưu ý rằng hệ số xác định R ^ 2 của độ phù hợp khá cao (91%) nên có thể cho rằng độ phù hợp là đạt yêu cầu.
Tuy nhiên, có thể phân biệt rõ hai vùng trên đồ thị điều chỉnh. Một trong số chúng, vùng ở bên phải được bao bọc trong một hình bầu dục, đáp ứng tính tương đồng, trong khi vùng ở bên trái không có tính tương đồng.
Điều này có nghĩa là dự đoán của mô hình hồi quy là đầy đủ và đáng tin cậy trong phạm vi từ 1800 m ^ 2 đến 4800 m ^ 2 nhưng rất bất cập bên ngoài vùng này. Trong vùng phương sai thay đổi, không chỉ sai số rất lớn mà dữ liệu dường như cũng đi theo một xu hướng khác với xu hướng được đề xuất bởi mô hình hồi quy tuyến tính.
Hình 3. Giá nhà ở so với diện tích và mô hình dự đoán bằng hồi quy tuyến tính, cho thấy vùng đồng biến và phương sai thay đổi. (Công phu riêng)
Đồ thị phân tán của dữ liệu là phép thử đơn giản và trực quan nhất về tính đồng biến của chúng, tuy nhiên, trong những trường hợp nó không rõ ràng như trong ví dụ minh họa trong Hình 3, cần phải sử dụng đồ thị với các biến phụ.
Các biến chuẩn hóa
Để phân biệt các khu vực nơi mà phương pháp co giãn đồng nhất được đáp ứng và nơi nào không được đáp ứng, các biến ZRes và ZPred được chuẩn hóa được giới thiệu:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Cần lưu ý rằng các biến này phụ thuộc vào mô hình hồi quy được áp dụng, vì Y là giá trị của dự đoán hồi quy. Dưới đây là biểu đồ phân tán ZRes và ZPred cho cùng một ví dụ:
Hình 4. Cần lưu ý rằng trong vùng đồng biến đổi, ZRes vẫn đồng nhất và nhỏ trong vùng dự đoán (Công cụ riêng).
Trong đồ thị ở Hình 4 với các biến chuẩn hóa, vùng có sai số dư nhỏ và đồng đều được tách biệt rõ ràng với vùng không có. Trong vùng đầu tiên, phương sai thay đổi được thỏa mãn, trong khi ở vùng mà sai số dư rất thay đổi và lớn, phương sai thay đổi được thỏa mãn.
Điều chỉnh hồi quy được áp dụng cho cùng một nhóm dữ liệu trong hình 3, trong trường hợp này điều chỉnh là phi tuyến tính, vì mô hình được sử dụng liên quan đến một hàm tiềm năng. Kết quả được hiển thị trong hình sau:
Hình 5. Các vùng mới của phương sai thay đổi và phương sai thay đổi trong việc điều chỉnh dữ liệu với mô hình hồi quy phi tuyến tính. (Công phu riêng).
Trong đồ thị của Hình 5, các vùng đồng biến và phương sai phải được lưu ý rõ ràng. Cũng cần lưu ý rằng các vùng này được hoán đổi cho nhau đối với các vùng được hình thành trong mô hình phù hợp tuyến tính.
Trong đồ thị của Hình 5, rõ ràng là ngay cả khi có một hệ số xác định sự phù hợp khá cao (93,5%), thì mô hình không đủ cho toàn bộ khoảng của biến giải thích, vì dữ liệu cho các giá trị lớn hơn 2000 m ^ 2 phương sai thay đổi hiện tại.
Các bài kiểm tra phi đồ họa về độ tương đồng
Một trong những phép thử phi đồ họa được sử dụng nhiều nhất để xác minh xem liệu độ đồng biến đổi có được đáp ứng hay không là phép thử Breusch-Pagan.
Không phải tất cả các chi tiết của bài kiểm tra này sẽ được đưa ra trong bài viết này, nhưng các đặc điểm cơ bản của nó và các bước tương tự được phác thảo một cách đại khái:
- Mô hình hồi quy được áp dụng cho n dữ liệu và phương sai của dữ liệu tương tự được tính theo giá trị được ước tính bởi mô hình σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Một biến mới được định nghĩa ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Mô hình hồi quy tương tự được áp dụng cho biến mới và các tham số hồi quy mới của nó được tính toán.
- Giá trị tới hạn Chi bình phương (χ ^ 2) được xác định, đây là một nửa của tổng bình phương phần dư mới trong biến ε.
- Bảng phân phối Chi bình phương được sử dụng để xem xét mức ý nghĩa (thường là 5%) và số bậc tự do (số biến hồi quy trừ đi đơn vị) trên trục x của bảng, để thu được giá trị của bảng.
- Giá trị tới hạn thu được ở bước 3 được so sánh với giá trị được tìm thấy trong bảng (χ ^ 2).
- Nếu giá trị tới hạn thấp hơn giá trị của bảng, chúng ta có giả thuyết rỗng: có sự đồng biến
- Nếu giá trị tới hạn cao hơn giá trị của bảng, chúng ta có giả thuyết thay thế: không có đồng phương thay đổi.
Hầu hết các gói phần mềm thống kê như: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic và một số gói phần mềm khác đều kết hợp kiểm tra độ tương đồng Breusch-Pagan. Một thử nghiệm khác để xác minh tính đồng nhất của phương sai là thử nghiệm Levene.
Người giới thiệu
- Hộp, Thợ săn & Thợ săn. (1988) Thống kê cho các nhà nghiên cứu. Tôi đã đảo ngược các biên tập viên.
- Johnston, J (1989). Phương pháp kinh tế lượng, hiệu đính Vicens -Vives.
- Murillo và González (2000). Sổ tay Kinh tế lượng. Đại học Las Palmas de Gran Canaria. Đã khôi phục từ: ulpgc.es.
- Wikipedia. Độ co giãn đồng nhất. Phục hồi từ: es.wikipedia.com
- Wikipedia. Độ co giãn đồng nhất. Khôi phục từ: en.wikipedia.com