- Ví dụ
- Phân loại các biến phân loại
- Danh mục danh nghĩa
- Phân loại thông thường
- Danh mục nhị phân
- Thống kê với các biến phân loại
- Biểu diễn đồ họa của các biến phân loại
- Bài tập đã giải
- Bài tập 1
- Ví dụ 2
- Ví dụ 3
- Người giới thiệu
Biến phân loại là biến được sử dụng trong thống kê để gán một đặc tính hoặc thuộc tính phi số hoặc định tính cho một số đối tượng, cá nhân, thực thể, điều kiện hoặc thủ tục. Có thể xác định tất cả các loại biến phân loại theo từng nhu cầu.
Ví dụ về các biến phân loại là: màu sắc, giới tính, nhóm máu, tình trạng hôn nhân, loại vật chất, hình thức thanh toán hoặc loại tài khoản ngân hàng và chúng được sử dụng rất nhiều hàng ngày.

Hình 1: Màu sắc là một biến phân loại. Nguồn: pixabay
Trên đây là các biến, nhưng các giá trị có thể có của chúng là định tính, nghĩa là chất lượng hoặc đặc tính chứ không phải là một phép đo số. Ví dụ, các giá trị có thể có cho giới tính biến đổi là: nam, h ôm.
Khi biến này được lưu trữ trong một chương trình máy tính, nó có thể được khai báo như một biến văn bản và các giá trị được chấp nhận duy nhất sẽ là những giá trị đã được đặt tên: Nam, Nữ.
Tuy nhiên, cùng một biến giới tính có thể được khai báo và lưu trữ dưới dạng số nguyên nếu Nam được gán giá trị 1 và Nữ được gán giá trị 2. Chính vì lý do này mà các biến phân loại đôi khi được gọi là một kiểu liệt kê.
Đặc điểm chính của các biến phân loại là không giống như các biến khác, chẳng hạn như các biến liên tục và rời rạc, không thể thực hiện phép số học với chúng. Tuy nhiên, thống kê có thể được thực hiện với chúng, như sẽ thấy ở phần sau.
Ví dụ
Lưu ý các ví dụ sau về các biến phân loại và các giá trị có thể có của chúng:
- Group_Sanguíneo, Phạm vi giá trị: A, B, AB, O
- Civil_Status, Categorical Values: Độc thân (A), Đã kết hôn (B), Góa vợ (C), Ly hôn (D).
- Tipo_de_Material, Danh mục hoặc giá trị: 1 = Gỗ, 2 = Kim loại, 3 = Nhựa
-Form_of_Payment, Chứng khoán hoặc danh mục: (1) Tiền mặt, (2) Ghi nợ, (3) Chuyển khoản, (4) Tín dụng
Trong các ví dụ trước, một số đã được liên kết với mỗi danh mục theo cách hoàn toàn tùy ý.
Khi đó, có thể nghĩ rằng sự kết hợp số tùy ý này làm cho nó tương đương với một biến định lượng rời rạc, nhưng không phải vậy, vì các phép toán số học không thể thực hiện được với các số này.
Để minh họa ý tưởng, trong biến Form_of_Payment, phép toán sum không có ý nghĩa gì:
(1) Tiền mặt + (2) Nợ sẽ không bao giờ bằng (3) Chuyển khoản
Phân loại các biến phân loại
Xếp hạng dựa trên việc liệu chúng có phân cấp ngầm hay không hoặc số lượng kết quả có thể xảy ra là nhiều hơn hai hoặc hai.
Một biến phân loại chỉ có một kết quả có thể xảy ra không phải là một biến số, nó là một hằng số phân loại.
Danh mục danh nghĩa
Khi chúng không thể được biểu thị bằng một số hoặc có bất kỳ thứ tự nào. Ví dụ, biến: Type_of_Material, có các giá trị danh nghĩa (Gỗ, Kim loại, Nhựa), chúng không có thứ bậc hoặc thứ tự, ngay cả khi một số tùy ý được gán cho mỗi phản hồi hoặc danh mục.
Phân loại thông thường
Biến: Academic_performance
Giá trị danh nghĩa: Cao, Trung bình, Thấp
Mặc dù các giá trị của biến này không phải là số, nhưng chúng có thứ tự hoặc phân cấp ngầm định.
Danh mục nhị phân
Đây là các biến danh nghĩa với hai câu trả lời có thể có, ví dụ:
-Variable: Đáp ứng
-Giá trị cuối cùng: Đúng, Sai
Lưu ý rằng biến Phản hồi không có phân cấp ngầm định và chỉ có hai kết quả có thể xảy ra, vì vậy nó là một biến phân loại nhị phân.
Một số tác giả gọi loại này là biến nhị phân và không coi nó thuộc về các biến phân loại bị hạn chế đối với những biến có nhiều hơn ba loại có thể.
Thống kê với các biến phân loại
Thống kê có thể được thực hiện với các biến phân loại, mặc dù không phải là biến số hoặc biến định lượng. Ví dụ, để biết xu hướng hoặc giá trị có thể xảy ra nhất của một biến phân loại, chế độ được thực hiện.
Trong trường hợp này, chế độ là kết quả hoặc giá trị lặp lại nhiều nhất của một biến phân loại. Đối với các biến phân loại, không thể tính giá trị trung bình hoặc giá trị trung vị.
Không thể tính giá trị trung bình vì bạn không thể tính toán số học với các biến phân loại. Giá trị trung bình cũng không, vì các biến định lượng hoặc biến phân loại không có thứ tự hoặc thứ bậc, vì vậy không thể xác định giá trị trung tâm.
Biểu diễn đồ họa của các biến phân loại
Với một biến phân loại nhất định, có thể tìm thấy tần suất hoặc số lần lặp lại kết quả của biến đó. Nếu điều này được thực hiện cho mỗi kết quả, thì có thể lập biểu đồ tần suất so với từng loại hoặc kết quả.
Dưới đây là một số ví dụ về cách các biến phân loại có thể được biểu diễn bằng đồ thị.
Bài tập đã giải
Bài tập 1
Một công ty có hồ sơ dữ liệu của 170 nhân viên. Một trong những biến có trong các bản ghi này là: Estado_Civil. Biến này có bốn danh mục hoặc các giá trị có thể có:
Độc thân (A), Kết hôn (B), Góa chồng (C), Ly hôn (D).
Mặc dù nó là một biến không phải là số, có thể biết có bao nhiêu trong tổng số các bản ghi thuộc một loại nhất định và được biểu diễn dưới dạng biểu đồ thanh, như thể hiện trong hình sau:

Hình 2. Biểu diễn kết quả của một biến phân loại. Nguồn: tự làm
Ví dụ 2
Một cửa hàng giày theo dõi doanh thu của nó. Trong số các biến quản lý bản ghi của chúng là màu giày cho mỗi kiểu máy. Biến:
Color_Shoe_Model_AW3
Nó thuộc loại phân loại và có năm loại hoặc các giá trị có thể. Đối với mỗi loại của biến này, tổng số lần bán hàng và tỷ lệ phần trăm của chúng được thiết lập. Kết quả được trình bày trong đồ thị của hình sau:

Hình 3. Biến phân loại Color _Shoe. Trong biến này, chế độ là Trắng. Nguồn: tự làm.
Có thể nói, trong số các mẫu giày AW3 đang là mốt thì mẫu giày được bán thường xuyên nhất là màu Trắng, tiếp theo là màu Đen.
Cũng có thể nói rằng với xác suất 70% chiếc giày tiếp theo được bán ra của mẫu này sẽ có màu Trắng hoặc Đen.
Thông tin này có thể hữu ích cho cửa hàng khi đặt hàng mới hoặc thậm chí có thể áp dụng giảm giá cho những màu ít bán nhất do lượng hàng tồn dư thừa.
Ví dụ 3
Đối với một nhóm người hiến máu nhất định, bạn muốn đại diện cho số người thuộc một nhóm máu nhất định. Một cách đồ họa để hình dung kết quả là bằng một hình ảnh tượng hình, ở cuối bảng.
Cột đầu tiên đại diện cho biến group_sanguíneo và các kết quả hoặc danh mục có thể có của nó. Cột thứ hai có sự thể hiện ở dạng biểu tượng hoặc hình ảnh về số lượng người trong mỗi danh mục. Trong ví dụ của chúng tôi, một giọt màu đỏ được sử dụng làm biểu tượng, mỗi giọt tượng trưng cho 10 người.

Hình 4. Biểu đồ tượng hình. Nguồn: tự làm
Người giới thiệu
- Học viện Khan. Phân tích dữ liệu phân loại. Phục hồi từ: khanacademy.org
- Công thức vũ trụ. Biến định tính. Được khôi phục từ: univesoformulas.com
- Minitab. Đó là các biến phân loại, rời rạc và liên tục. Được khôi phục từ: support.minitab.com
- Hướng dẫn Excel. Đặc tính của các biến. Được khôi phục từ: help.xlslat.com.
- Wikipedia. Biến thống kê. Khôi phục từ wikipedia.com
- Wikipedia. Biến phân loại. Khôi phục từ wikipedia.com
- Wikipedia. Biến phân loại. Khôi phục từ wikipedia.com
