Hướng dẫn phân biệt biến rời rạc với biến liên tục

phabiet FILEminimizer 1024x686 - Hướng dẫn phân biệt biến rời rạc với biến liên tục

Hướng dẫn phân biệt biến rời rạc với biến liên tục, trong thống kê quan trọng nhất là chúng ta xác định đâu là biến rời rạc đâu là biến liên tục để áp dụng vào mô hình định lượng một cách chính xác, đối với người có kinh nghiệm thì điều này quá đơn giản, nhưng đối với người mới đó là ” nổi khổ”, trong bài viết này chúng tôi không dùng các định nghĩa hàn lâm để phân biệt mà dùng kinh nghiệm để phân biệt.

PHÂN BIỆT BIẾN RỜI RẠC VỚI BIẾN LIÊN TỤC

Biến liên tục là gì ?

Kinh nghiệm: biến liên tục ((Continuous variables) là những biến khi chia ra thập phân nhỏ mà vẫn có ý nghĩa. Nghe có vẻ hàn lâm nhưng khi làm ví dụ sau thì chúng ta sẽ rõ ngay thôi.

Định nghĩa hàn lâm: Các biến liên tục có thể nhận vô số giá trị giữa các điểm đo thấp nhất và cao nhất. Các biến liên tục bao gồm những thứ như tốc độ và khoảng cách. Dữ liệu liên tục rất mong muốn trong thống kê suy luận ; tuy nhiên, chúng có xu hướng ít hữu ích hơn trong việc khai thác dữ liệu và thường được mã hóa thành các tập hoặc dữ liệu rời rạc, được mô tả tiếp theo.

ĐỌC:  Tạp chí mở VS tạp chí đóng, cái nào uy tín hơn ?

Biến rời rạc là gì ?

Kinh nghiệm: biến rời rạc (Discrete variables)  là những biến là những biến phân theo nhóm, giới hạn, và không thể chia nhỏ ra được. Trong biến rời rạc thì chúng ta có những biến sau: biến rời rạc phân loại , biến nhị phân ( Dummy variables), biến thứ bậc ( order variables)

Hàn lâm: Dữ liệu rời rạc được liên kết với một số giá trị giới hạn có thể. Giới tính hoặc thứ hạng là những ví dụ về các biến rời rạc vì có một số lượng hạn chế các tùy chọn loại trừ lẫn nhau. Dữ liệu nhị phân là một loại dữ liệu rời rạc bao gồm thông tin được giới hạn trong hai tùy chọn có thể có (ví dụ: nam hoặc nữ; có hoặc không). Dữ liệu nhị phân và rời rạc còn được gọi là dữ liệu bộ và dữ liệu cờ, tương ứng.

Phân biệt biến rời rạc với biến liên tục

Như đã nói ở trên chúng ta thử, dùng nhiều ví dụ xem sự phân biệt có dễ dàng hay không?

Tuổi

Tập hợp tuổi = { 5, 12, 45, 6, 9, 10, 100]

Bây giờ ta chia nhỏ ra: em bé có 2,5 tuổi, bạn nghe họp lí không ?  => Rất hợp lí, thì đây là biến liên tục

Giới tính

Tập hợp giới tính = {nam, nữ) ( Biến nhị phân nhận giá trị 0 , 1)

Ta thấy rằng giới tính được phân nhóm và giới hạn lại, giờ ta chia nhỏ thử coi, bạn ấy có giới tính là  0.5 (Đừng nói với tôi là người có giới tính thứ ba, nếu thích thì bạn đặt là 2 ví dụ), bạn nghe thử xem hợp lí không ? không là là cái chắc rồi đây là biến rời rạc.

ĐỌC:  Nhận xử lý data thống kê R Statistical Spss Eviews Stata 1

Thu nhập

Tập hợp của thu nhập = { 5, 3, 12, 10, 7, 9, 10 } triệu

Bây giờ bạn chia nhỏ thử xem sao ? tôi có thu nhập là 10,5 triệu, bạn nghe hợp lí không ? quá hợp lí đi mất, thì đây là biến liên tục.

Dân tộc Khmer

Tập hợp biến dân tộc khmer={1: có, 0: không} ( Nếu người đó là dân tộc khmer thì tôi gán là 1 còn lại gán là 0)

Giờ bạn chia nhỏ thử xem, ví dụ là 0.8, nó không có nghĩa gì cả = > đây là biến rời rạc

Hệ số BMI

Tập hợp BMI = {7, 15, 20, 35, 21, 19, 29, 39, 40,31}

Giờ ta chia nhỏ ra thử xem, ví dụ: 22,8 bạn nghe hợp lí không, rất hợp lí, nên đây là biến liên tục.

Người ta gán rằng, nếu hệ số BMI > 25 là béo phì, ngược lại thì 0 bị

Lúc này tạp hợp BMI={0, 0, 0, 1, 0, 0, 1, 1, 1, 1,1}, lúc này nó chỉ có 2 giá trị {0,1}, và bạn thử chia nhỏ ra xem, ví dụ: 0.9 bạn nghe có hợp lí không, người ta phân ra 2 mực là {0,1} còn bạn phân ra 0.9 nó quá bất hợp lí, lúc này nó là biến BMI là biến rời rạc.

Chỉ số yêu

Ta gán thang đo yêu thành 5 mức của thang đo likert như sau:

  • 0: Không yêu
  • 1: yêu tí xíu
  • 2: mới yêu
  • 3: yêu rất nhiều
  • 4: yêu cuồng nhiệt
ĐỌC:  sau đại học Hỗ trợ tư vấn

Bây giờ thì bạn thử chia nhỏ ra xem sao 3,8 bạn nghe có hợp lí không ? người ta có 5 mức như trên ta lại có mức 3.8 là nghe bất hợp lí rồi, đây là biến rời rạc có thứ bậc.

Sau 5 ví dụ thì các bạn sẽ dễ dạng nhận thấy sự khác biệt của biến liên tục với biến rời rạc rồi phải không? đây là vấn đề cơ bản nhất trong nghiên cứu thống kê, bài sau tôi sẽ nói đến vấn đề thống kê mô tả dữ liệu hay xử lý dữ liệu mà nhiều người mắc sai lầm; Bạn phải nắm rõ bài này bạn sẽ hiểu vấn đề tôi nói ở bài sau.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *