Hệ số tương quan Pearson hay hệ số tương quan r là số liệu thống kê kiểm tra đo lường mối quan hệ thống kê hoặc mối liên hệ giữa hai biến liên tục. Nó được biết đến như là phương pháp tốt nhất để đo lường mối liên hệ giữa các biến quan tâm vì nó dựa trên phương pháp hiệp phương sai. Mục đích của phân tích hệ số tương quan Pearson là để kiểm tra mối tương quan tuyến tính chặt chẽ giữa các biến độc lập và biến phụ thuộc. Từ đó phát hiện sớm hiện tượng đa cộng tuyến khi các biến độc lập cũng có sự tương quan mạnh với nhau. Phân tích hệ số tương quan Pearson là một trong những bước bắt buộc cần thực hiện trong bài nghiên cứu sử dụng phân tích định lượng, thường được thực hiện trước khi phân tích hồi quy. Trong bài viết này, Luận Văn Beta sẽ cùng bạn đọc tìm hiểu nhiều hơn về khái niệm, ý nghĩa của hệ số tương quan Pearson và cách phân tích tương quan Pearson trong SPSS cũng như cách đọc kêt quả của tương quan Pearson trong SPSS.
Hệ số tương quan Pearson là gì?
Hệ số tương quan Pearson (Pearson correlation coefficient, ký hiệu r) hay hệ số tương quan r là một một phép đo định lượng mức độ liên kết giữa hai biến. Nói một cách đơn giản, hệ số tương quan Pearson tính toán tác động của sự thay đổi ở một biến khi biến kia thay đổi.
Phân tích tương quan thường bắt đầu bằng biểu diễn đồ họa về mối quan hệ của các cặp dữ liệu bằng sơ đồ phân tán. Giá trị của hệ số tương quan thay đổi từ -1 đến +1. Giá trị dương của hệ số tương quan cho thấy xu hướng của một biến tăng hoặc giảm cùng với biến khác. Giá trị âm của hệ số tương quan biểu thị xu hướng tăng giá trị của một biến gắn liền với việc giảm giá trị của biến kia và ngược lại. Các giá trị của hệ số tương quan gần bằng 0 biểu thị mối liên hệ thấp giữa các biến và những giá trị gần -1 hoặc +1 biểu thị mối liên hệ tuyến tính mạnh mẽ giữa hai biến.
Ví dụ:
Trong tập dữ liệu bao gồm tuổi của một người (biến độc lập) và tỷ lệ phần trăm số người ở độ tuổi đó mắc bệnh tim (biến phụ thuộc), hệ số tương quan Pearson có thể được tìm thấy là 0,75, cho thấy mối tương quan vừa phải. Điều này có thể dẫn đến kết luận rằng tuổi tác là yếu tố quyết định liệu một người có nguy cơ mắc bệnh tim hay không.
Phân tích hệ số tương quan Pearson được thực hiện trong các trường hợp như:
- Một trường đại học muốn biết liệu trách nhiệm xã hội có gắn liền với danh tiếng của trường đại học trong cộng đồng hay không
- Một giám đốc tiếp thị muốn biết liệu việc tăng giá có liên quan gì đến việc giảm doanh số bán sản phẩm hay không
- Người quản lý nhân sự muốn biết liệu việc tăng lương của nhân viên có làm giảm tỷ lệ vắng mặt hay không
- Một nhà nghiên cứu khoa học xã hội muốn biết liệu tuổi tác càng cao có làm giảm xung đột ở nơi làm việc/ gia đình hay không
Ý nghĩa của hệ số tương quan Pearson
Tương quan tuyến tính giữa hai biến là mối tương quan khi biểu diễn giá trị quan sát của hai biến trên mặt phẳng Oxy, các điểm dữ liệu có xu hướng tạo thành một đường thẳng. Theo Gayden (1951), các nhà nghiên cứu sử dụng hệ số tương quan Pearson (ký hiệu r) để lượng hoá mức độ chặt chẽ mối liên hệ tuyến tính giữa hai biến định lượng. Nếu một trong hai hoặc cả hai biến không phải biến định lượng như biến định tính, biến nhị phân,… thì chúng ta không thực hiện phân tích tương quan Pearson được.
Hệ số tương quan Pearson r có giá trị dao động từ -1 đến 1, cụ thể như sau:
Nếu r tiến về 1, -1: Tương quan tuyến tính càng mạnh và chặt chẽ. Nếu tiến về 1 là tương quan dương, ngược lại tiến về -1 là tương quan âm.
Nếu r tiến về O: Tương quan tuyến tính càng yếu
Nếu r =1, đây là tương quan tuyến tính tuyệt đối, khi biểu diễn trên đồ thị phân tán Scatter thì các điểm biểu diễn sẽ nhập lại tạo thành 1 đường thẳng.
Nếu r = 0, không có mối tương quan tuyến tính, lúc này sẽ xảy ra 2 tình huống sua:
- Một là không có mối liên hệ nào giữa hai biến
- Hai là giữa chúng có mối liên hệ phi tuyến.
Mặc dù có thể đánh giá mối liên hệ tuyến tính giữa hai biến qua hệ số tương quan Pearson, nhưng chúng ta cần thực hiện kiểm định giả thuyết hệ số tương quan này với ý nghĩa thống kê hay không. Nếu kết quả kiểm định sig nhỏ hơn 0.05, thì cặp biến có tương quan tuyến tính với nhau. Nếu sig lớn hơn 0.05, thì cặp biến không có tương quan tuyến tính.
Khi xác định hai biến có mối tương quan tuyến tính (sig <0.05), chúng ta sẽ xét đến độ mạnh/ yếu của mối tương quan này thông qua trị tuyệt đối của r. Theo đó:
|r| < 0.1: mối tương quan rất yếu
|r| < 0.3: mối tương quan yếu
|r| < 0.5: mối tương quan trung bình
|r| >= 0.5: mối tương quan mạnh
Chi tiết cách diễn giải hệ số tương quan được đề cập qua bảng dưới đây:
Giá trị r | Diễn giải |
r = 1 | Tương quan tuyến tính dương hoàn hảo |
1 > r ≥0,8 | Tương quan tuyến tính dương mạnh mẽ |
0,8 > r ≥0,4 | Tương quan tuyến tính dương vừa phải |
0,4 > r > 0 | Tương quan tuyến tính dương yếu |
r = 0 | Không có sự tương quan |
0 > r ≥ –0,4 | Tương quan tuyến tính âm yếu |
–0,4 > r ≥ –0,8 | Tương quan tuyến tính âm vừa phải |
–0,8 > r > -1 | Tương quan tuyến tính âm mạnh |
r = –1 | Tương quan tuyến tính âm hoàn hảo |
Hướng dẫn chi tiết cách phân tích tương quan Pearson trong SPSS
Ta xét ví dụ, một nhà nghiên cứu muốn biết liệu chiều cao của một người có liên quan đến thành tích nhảy xa của họ hay không. Nhà nghiên cứu đã tuyển dụng những cá nhân chưa được đào tạo từ dân số nói chung, đo chiều cao của họ và yêu cầu họ thực hiện một cú nhảy xa. Sau đó, nhà nghiên cứu đã điều tra xem liệu có mối liên hệ giữa chiều cao và hiệu suất nhảy xa hay không bằng cách chạy mối tương quan Pearson.
Việc đầu tiên, ta import dữ liệu gồm hai biến Height (tức là chiều cao của người tham gia) và Jump_Dist (tức là khoảng cách đã nhảy trong một lần nhảy xa) từ Excel vào phần mềm SPSS.
Bước 1: Nhấp vào Analyze > Correlate > Bivariate… trên menu chính, như hiển thị bên dưới:
Bạn sẽ thấy hộp thoại Bivariate Correlations:
Bước 2: Chuyển các biến Height và Jump_Dist vào hộp Variables: bằng cách kéo và thả chúng hoặc nhấp vào chúng rồi nhấp vào nút Mũi tên ở giữa hộp thoại như hình bên dưới:
Bước 3: Đảm bảo rằng hộp kiểm Pearson trong khu vực –Correlation Coefficients– được tích chọn (mặc dù nó được chọn theo mặc định trong Thống kê SPSS).
Bước 4: Nhấp vào nút Options… và bạn sẽ thấy hộp thoại Bivariate Correlations: Options. Nếu bạn muốn tạo một số mô tả, bạn có thể thực hiện việc đó tại đây bằng cách nhấp vào hộp kiểm có liên quan trong khu vực–Statistics– như hình bên dưới:
Bước 5: Nhấn nút Continue để được đưa trở lại hộp thoại Bivariate Correlations
Bước 6: Nhấn nút OK để nhận về bảng kết quả phân tích tương quan Pearson
Cách đọc kết quả tương quan Pearson trong SPSS
Có hai mối quan hệ tương quan gồm: Tương quan giữa biến phụ thuộc với các biến độc lập và tương quan giữa các biến độc lập với nhau. Sở dĩ có việc phân loại như vật là do sự kỳ vọng về kết quả sẽ có đôi chút khác biệt giữa hai loại mối quan hệ, cụ thể:
Tương quan giữa biến độc lập với biến phụ thuộc
Trong bảng kết quả, các giá trị sig được tô đỏ. Khi xây dựng mô hình nghiên cứu, các bạn cần tìm hiểu rất kỹ để tìm các biến độc lập có tác động lên biến phụ thuộc. Việc đưa ra các biến độc lập dựa trên nền tảng cơ sở lý thuyết, các nghiên cứu tương tự trước đó và đánh giá tình hình thực tế tại môi trường khảo sát.
Do đó, chúng ta kỳ vọng kết quả phân tích từ dữ liệu sẽ cho thấy các biến độc lập có tương quan với biến phụ thuộc hoặc có tác động lên biến phụ thuộc. Nếu thực hiện phân tích tương quan trước hồi quy, kết quả từ tương quan Pearson cho thấy biến độc lập tương quan với biến phụ thuộc, khả năng biến độc lập đó tác động lên biến phụ thuộc ở hồi quy cao hơn.
Tương quan giữa các biến độc lập với nhau
Tên gọi “biến độc lập” nói lên đặc điểm kỳ vọng của dạng biến này là chúng độc lập về ý nghĩa với nhau. Giữa hai biến độc lập nếu có sự tương quan quá mạnh, có khả năng hai biến này bản chất chỉ là một biến, một khái niệm. Hai biến độc lập không có tương qua (sig >0.05) thì gần như không có khả năng xảy ra cộng tuyến giữa hai biến này. Hai biến độc lập có tương quan (sig <0.05) và trị tuyệt đối hệ số tương quan lớn hơn 0.7 thì khả năng xảy ra cộng tuyến giữa chúng tương đối cao.
Lưu ý: khi đánh giá cộng tuyến, các bạn nên kết hợp hệ số tương quan Pearson ở bước này với chỉ số VIF trong phân tích hồi quy tuyến tính để đưa ra đánh giá chính xác nhất.
Xét trong ví dụ ở phần trước, ta được kết quả như sau:
Ở ví dụ này, chúng ta có thể thấy rằng hệ số tương quan Pearson, r , là 0,706 và nó có ý nghĩa thống kê ( p = 0,005)
Từ kết quả này ta có thể đưa ra kết luận, giữa chiều cao và khoảng cách nhảy trong một lần nhảy xa có mối tương quan chặt chẽ, tích cực, có ý nghĩa thống kê ( r = 0,706, n = 14, p = 0,005).
Hạn chế của phân tích hệ số tương quan Pearson là gì?
Hệ số tương quan Pearson R không đủ để phân biệt sự khác biệt giữa biến phụ thuộc và biến độc lập vì hệ số tương quan giữa các biến là đối xứng. Ví dụ, nếu một người đang cố gắng tìm hiểu mối tương quan giữa căng thẳng cao và huyết áp, người ta có thể tìm thấy giá trị tương quan cao, điều này cho thấy căng thẳng cao gây ra huyết áp. Bây giờ, nếu biến thay đổi, thì kết quả, trong trường hợp đó, cũng sẽ giống nhau, cho thấy căng thẳng là do huyết áp, điều này vô nghĩa. Vì vậy, nhà nghiên cứu nên nhận thức được dữ liệu mình sử dụng để phân tích.
Sử dụng phương pháp này, người ta không thể lấy thông tin về độ dốc của đường vì nó chỉ cho biết liệu có tồn tại mối quan hệ nào giữa hai biến hay không.
Hệ số tương quan Pearson có thể bị hiểu sai, đặc biệt trong trường hợp dữ liệu đồng nhất.
So với các phương pháp tính toán khác, phương pháp này mất nhiều thời gian để có kết quả.
Thông qua bài viết này, chúng ta đã cùng nhau tìm hiểu về hệ số tương quan Pearson cũng như cách tiến hành phân tích hệ số này trong SPSS. Hy vọng thông qua bài viết này, các bạn đã hiểu rõ về hệ số này và ứng dụng được trong những bài tập và nghiên cứu mà mình đang thực hiện. Nếu các bạn gặp khó khăn trong quá trình chạy SPSS,… hãy liên hệ với Luận Văn Beta để được hỗ trợ nhanh chóng nhé. Tham khảo dịch vụ xử lý số liệu SPSS tại Luận Văn Beta tại: https://luanvanbeta.com/dich-vu-xu-ly-so-lieu-spss/