Góc học tâp

Hiện tượng đa cộng tuyến – Kinh tế lượng

Câu hỏi: Hiện tượng đa cộng tuyến là gì

     – Đa cộng tuyến là hiện tượng các biến độc lập có mối tương quan rất mạnh với nhau. Mô hình hồi quy xảy ra hiện tượng đa cộng tuyến sẽ khiến nhiều chỉ số bị sai lệch, dẫn đến kết quả của việc phân tích định lượng không còn mang lại nhiều ý nghĩa

Bạn đang xem: Hiện tượng đa cộng tuyến – Kinh tế lượng

Đa cộng tuyến là gì?

     – Đa cộng tuyến (Multicollinearity) là hiện tượng thường xảy ra khi mối tương quan cao giữa hai hay nhiều biến độc lập trong mô hình hồi quy. Nói cách khác, một biến độc lập có thể sử dụng để dự đoán một biến độc lập khác. Khi biến độc lập A tặng thì biến độc lập B tăng và ngược lại A giảm thì B cũng giảm. Điều này sẽ dẫn đến việc tạo ra các thông tin dư thừa, làm sai lệch kết quả của mô hình hồi quy đa biến. Hiện tượng đa cộng tuyến vi phạm giả định của mô hình hồi quy tuyến tính là các biến độc lập không có mối quan hệ tuyến tính với nhau.

     – Một số ví dụ về cặp biến độc lập có sự tương quan như: Chiều cao và cân nặng của một người, tuổi và giá bán của một chiếc xe, số năm kinh nghiệm và thu nhập hàng năm của người lao động…

[CHUẨN NHẤT] Hiện tượng đa cộng tuyến - Kinh tế lượng
Khái niệm về đa cộng tuyến

1. Nguyên nhân gây ra đa cộng tuyến

     – Có nhiều nguyên nhân gây ra hiện tượng đa cộng tuyến, tuy nhiên, ở các đề tài về kinh tế xã hội, có 2 nguyên nhân chủ yếu là:

    + Do khi lập bảng khảo sát, chúng ta xây dựng nên các nhân tố không khác biệt nhau nhiều về tính chất, ý nghĩa. Ví dụ: Tiền lương và Thu nhập/ Sở thích và Điều quan tâm…

    + Do đặc trưng của chính môi trường được khảo sát gây nên hiện tượng đa cộng tuyến. Cùng một bảng khảo sát nhưng có thể mở môi trường khảo sát số 1 không có đa cộng tuyến xảy ra nhưng ở môi trường số 2 lại có đa cộng tuyến. Bởi vì đặc điểm môi trường khảo sát số 2 có điểm khác biệt rất nhiều so với môi trường 1. Tại môi trường số 2, các nhóm nhân tố dù ban đầu khi lập cơ sở lý luận thì chúng không có mối tương quan quá cao nhưng ở môi trường này giữa chúng lại có sự tương quan mạnh, điều này dẫn đến đa cộng tuyến khi thu thập dữ liệu khảo sát. Chính vì vậy, ở mỗi môi trường đặc trưng, bạn cần điều chỉnh bảng khảo sát cho hợp lý.

     – Dữ liệu sau thu thập vô tình vượt qua được kiểm định tính phân biệt trong EFA nhưng khi thực hiện phân tích hồi quy đa biến, đa cộng tuyến được biểu hiện ra thông qua hệ số VIF.

2. Dấu hiệu nhận biết hiện tượng đa cộng tuyến

     – Dựa vào ma trận tương quan Pearson: Khi phân tích tương quan Pearson, tại ma trận trương quan, chúng ta sẽ chú ý vào giá trị sig giữa các biến độc lập với nhau. 

Bước 1: Xác định các cặp biến độc lập có sig < 0.05.

Bước 2: Nhìn vào hệ số tương quan Pearson. Nếu hệ số tương quan Pearson từ 0.5 trở lên, chúng ta sẽ đặt ra nghi ngờ có thể xảy ra đa cộng tuyến.

[CHUẨN NHẤT] Hiện tượng đa cộng tuyến - Kinh tế lượng(ảnh 2)

     – Như ví dụ trên, cặp biến độc lập TN và CV có giá trị sig tương quan là 0.000 < 0.05. Ta sẽ nhìn vào hệ số tương quan Pearson (Pearson Correlation), giá trị này là 0.898 > 0.5. Như vậy cặp biến độc lập này có mối tương quan tuyến tính rất mạnh. Chúng ta nhận xét: Có thể xảy ra đa cộng tuyến giữa cặp biến này.

** Lưu ý: Ở bước xem xét ma trận tương quan Pearson, chúng ta chỉ ước tính việc xảy ra đa cộng tuyến dựa vào giá trị hệ số tương quan Pearson. Điều này chỉ dừng lại ở mức nghi ngờ, việc chứng minh bằng bằng con số xem thực sự có đa cộng tuyến hay không sẽ được trình bày ở dấu hiệu nhận biết sau đây.

     – Dựa vào giá trị VIF ở hồi quy: Ở bước tương quan Pearson. Chúng ta xác định đa cộng tuyến “bằng cảm tính” thì ở bước hồi quy, chúng ta sẽ dùng những con số chính xác để xác định có hay không hiện tượng đa cộng tuyến.

     – Thực hiện phân tích hồi quy đa biến cho ví dụ ở trên, ta có được kết quả bảng Coefficients như hình dưới đây:

[CHUẨN NHẤT] Hiện tượng đa cộng tuyến - Kinh tế lượng(ảnh 3)

     – Giá trị VIF của 2 biến TN và CV khá cao (lớn hơn 2). Các bạn đọc tham khảo một số tài liệu, sách về thống kê sẽ cho rằng: Nếu VIF < 10 thì không có hiện tượng đa cộng tuyến xảy ra. Tuy nhiên, mốc đánh giá ở mức 10 sẽ phù hợp với những đề tài về kỹ thuật, vật lý không sử dụng thang đo Likert. Còn ở các đề tài về kinh tế, xã hội, các nhà nghiên cứu cho rằng VIF > 2 sẽ có hiện tượng đa cộng tuyến xảy ra. Điều này cũng được chính tác giả kiểm chứng qua việc xử lý dữ liệu cho hơn 100 đề tài nghiên cứu ở các lĩnh vực: kinh tế – xã hội, kỹ thuật, y học, nông nghiệp. Như vậy, ở ví dụ ở trên, mô hình hồi quy đang có hiện tượng đa cộng tuyến xảy ra.

** Lưu ý: Nếu bảng khảo sát của bạn có các biến định lượng sử dụng thang đo Likert. Và khi tiến hành phân tích hồi quy, bạn cho cả các biến định lượng này cùng biến định tính như tuổi, giới tính, nghề nghiệp, thu nhập,… vào cùng chạy trên một phương trình, bạn cần lưu ý rằng: các biến định lượng sẽ lấy tiêu chuẩn hệ số VIF là 2, và các biến định tính sẽ lấy hệ số VIF là 10. Điều này dựa vào kinh nghiệm của tác giả và không có tài liệu nào hiện tại viết về vấn đề này.

3. Hậu quả của hiện tượng đa cộng tuyến

     – Mục đích chính của phân tích hồi quy là xác định mối quan hệ tương quan giữa từng biến độc lập và biến phụ thuộc. Giải thích hệ số hồi quy là đại diện cho sự thay đổi trung bình của biến phụ thuộc cho mỗi một đơn vị thay đổi trong một biến độc lập khi bạn giữ tất cả các biến độc lập khác không đổi. Tuy nhiên, khi các biến độc lập có sự tương tương quan, các biến độc lập có xu hướng thay đổi đồng nhất. Sự thay đổi trong một biến sẽ liên kết làm thay đổi một biến khác. Mối tương quan càng mạnh thì càng khó thay đổi một biến mà không thay đổi một biến khác. Mô hình trở nên khó khăn trong việc ước tính mối quan hệ giữa từng biến độc lập và biến phụ thuộc một cách độc lập: Gia tăng sai số chuẩn của các hệ số, khoảng tin cậy lớn và kiểm định t ít ý nghĩa.

4. Cách khắc phục hiện tượng đa cộng tuyến

     – Giải pháp 1: Loại bỏ biến độc lập có hệ số VIF vượt qua giá trị tiêu chuẩn. Bạn nên bỏ biến có VIF lớn nhất rồi chạy lại phân tích hồi quy xem thử có còn hiện tượng đa cộng tuyến hay không. Trong ví dụ ở trên, tác giả loại bỏ nhân tố TN (VIF = 5.179) thì khi chạy lại hồi quy không còn hiện tượng đa cộng tuyến.

     – Giải pháp 2: Có thể đa cộng tuyến xảy ra do cỡ mẫu thu thập nhỏ. Bạn hãy thử thu thập thêm phiếu trả lời để tăng cỡ mẫu lên khoảng gấp 1,5 đến 2 lần. Khi cỡ mẫu lớn hơn sẽ làm giảm phương sai và ý nghĩa các kiểm định cũng sẽ có giá trị hơn.

     – Giải pháp 3: Nếu vấn đề xuất phát từ chính bước chọn mô hình nghiên cứu và lập bảng khảo sát. Bạn có thể sẽ phải hủy bỏ dữ liệu thu thập và điều chỉnh lại mô hình, tiến hành khảo sát lại. Cho nên, bước lập cơ sở lý luận để đưa ra mô hình đề xuất và bảng khảo sát là rất quan trọng, các bạn nên làm cho thật tốt phần này qua sự hướng dẫn của giảng viên, những người có chuyên môn.

Đăng bởi: ukunifair.vn

Chuyên mục: Góc học tâp

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Back to top button