Cross-Sectional Là Gì

giữa những điều thú vui nhất lúc thao tác làm việc cùng với dữ liệu là tính muôn hình vạn trạng của nó. Mặc mặc dù thống kê với học tập sản phẩm công nghệ là 2 siêng ngành bao gồm nghiên cứu và phân tích về dữ liệu, có khá nhiều cách thức phân tích tài liệu được thành lập và hoạt động tự hầu như nhu yếu đối chiếu của các ngành không giống – tốt nhất là từ tính tính chất vào tài liệu của ngành kia. ví dụ như nổi bật là tài chính lượng (econometrics), gần như một ngành học tập Thành lập nhằm so sánh những dữ liệu vào tài chính, Lúc tài liệu phần nhiều được thu thập bên dưới dạng bảng (panel data). Bài viết tiếp sau đây của chính bản thân mình sẽ ra mắt cùng với các bạn những kiểu dáng thay đổi số, đặc thù dữ liệu phổ biến, tự dễ dàng và đơn giản cho tinh vi với những dạng mô hình tương xứng với phần đông hình dạng dạng cùng đặc điểm đó.

Trong bài xích này, tài liệu được gọi là processed data, Tức là số đông gì chúng ta gồm trong tay trước lúc xây dựng quy mô. Khi đó những phát triển thành (cả features cùng response) phần nhiều sinh hoạt bên dưới dạng các số lượng (numeric); ví dụ, dữ liệu thô hoàn toàn có thể là một trong bức ảnh 800*600, thì processed data bao hàm những numeric features của 480,000 điểm hình ảnh. Hay giả dụ một feature bên dưới dạng binary (nhỏng Yes/No), nó được gửi về dạng 0-1. Hay nếu bạn so với text data, “dữ liệu” vào bài xích này được gọi là các term frequency. Trong bài xích này, những mô hình mình đề cập đến thường xuyên là những supervised Mã Sản Phẩm, cùng với những features (X) cùng đổi thay response (y).

Bạn đang xem: Cross-sectional là gì

A. Phân nhiều loại theo quý hiếm nhưng biến đổi được nhận

Continuous/Interval Variable – Biến liên tục

Đây là mẫu mã tài liệu thịnh hành với đơn giản và dễ dàng duy nhất, Khi biến chuyển số hoàn toàn có thể dấn dữ liệu trên bất kể điểm làm sao trên trục số, hoặc bất kể điểm nào trong một khoảng tầm. Ví dụ, độ cao với trọng lượng của một fan bất kì có thể nhận bất cứ quý giá to hơn 0 như thế nào, doanh thu của một công ty lớn trong một năm tương tự như vậy. Tất nhiên bên trên thực tiễn, chúng ta luôn luôn luôn luôn gồm một niềm tin về ngưỡng buổi tối nhiều hoặc tối thiểu của quý hiếm, nhưng đặc điểm đặc thù độc nhất của loại biến hóa này là nó có thể thừa nhận bất cứ giá trị làm sao vào ngưỡng kia. Đồng thời, những quý giá của nó gồm tính sản phẩm tự (ordered), ví dụ bạn cũng có thể đối chiếu cân nặng 160 kg nhỏ tuổi rộng 170 kilogam. Dữ liệu liên tục đẳng cấp này chất nhận được các bạn mô hình bằng số đông phân phối hận liên tiếp khôn xiết quen thuộc, như phân păn năn chuẩn, phân phối những, etc. Hagiống hệt như khi chúng ta áp dụng các mô hình hồi quy con đường tính, một điều kiện tiên quyết là biến chuyển response y là 1 trở thành liên tục. Tuy thế, hình dạng phát triển thành liên tiếp này có nhiều tình huống quan trọng đặc biệt, dưới đó là một số trong những hình dạng nhỏng thế:

Các trở thành về tỉ lệ thành phần (Rate/ratio): các biến chuyển này luôn luôn luôn ngơi nghỉ trong vòng từ bỏ 0 cho 1, từ bỏ conversion rate vào kinh doanh cho tới tỉ trọng tử vong trong một bệnh dịch lây lan. Rất nhiều nghiên cứu và phân tích vẫn áp dụng những vươn lên là nàgiống như những đổi thay thường xuyên cùng với phân pân hận chuẩn, nhưng lại nếu như muốn kiểm soát điều hành điều kiện từ 0 cho 1 sinh hoạt trên, một quy mô phổ cập là hồi quy beta (beta regression).

Xem thêm: Launched Là Gì - Nghĩa Của Từ Launched Trong Tiếng Việt

Circular/Directional variable: những phát triển thành về quý hiếm góc bên trên một đường tròn. Trong các ngành nhỏng địa hóa học học tập, sinh học, đôi lúc phía (directional) là 1 mối quan tiền tâm; ví dụ, tìm hiểu về điều hướng (navigation) của những loại chim, hay được dùng phía gió để tham gia đân oán mật độ ozone vào không gian. Circular variable ghi dưới dạng các góc của một cung tròn, từ bỏ 0 độ đến 360 độ, đề xuất không hề ít những phxay tính thông thường nhỏng trong biến liên tục có thể không có ý nghĩa; ví dụ, quan lại gần kề đầu tiên là 10 độ, với quan liêu gần kề vật dụng nhì là 350 độ – 2 góc nằm tại góc phần tứ thứ nhất và sản phẩm công nghệ 4 của mặt đường tròn. Dù thế nếu như bạn rước vừa đủ 2 góc là 180 độ, nó gần như là ở ở một địa điểm hết sức khác. Vì thay, điểm chủ đạo khi thao tác cùng với circular variable là câu hỏi áp dụng các toạ độ rất (polar coordinates).

2. Binary variable – Các trở thành nhị phân

Biến nhị phân là biến đổi nhưng chỉ có thể dìm 2 giá trị là 0 cùng 1 – tương ứng cùng với rất nhiều giám sát trong một phân các loại (category) chỉ có 2 quý hiếm (levels) được cho phép, nhỏng Có/Không, Đúng/Sai, etc. khi các phát triển thành này mở ra vào mô hình dưới dạng là đổi mới response, bài bác tân oán biến hóa bài toán phân lớp (classification) cùng với không hề ít thuật tân oán phổ cập như logistic regression, SVM, etc. Khác cùng với thay đổi liên tục, đổi thay nhị phân không tồn tại tính sản phẩm công nghệ từ bỏ. Tại phía trên 0 cùng 1 chỉ thay mặt đại diện mang lại 2 team, chứ KHÔNG có tính so sánh như là 030, Nữ >30, Nam

*

Các thay đổi multinomial variable là 1 trong sự mở rộng của những đổi mới nhị phân, Khi phân các loại (category) có khá nhiều hơn 2 phân lớp (levels). ví dụ như một phân một số loại về Xu thế chủ yếu trị làm việc Mỹ rất có thể tất cả Democrats/Republican/Neutral, etc. Khi được code vào trong máy vi tính, những levels cũng tốt được khắc số như một, 2, 3. Tuy nhưng, điều nhấn mạnh quan trọng đặc biệt ở đó là những levels này không tồn tại tính đồ vật trường đoản cú (unordered), tức là bạn chẳng thể đem tổng giỏi hiệu của những số lượng này, với chớ lúc nào quên hiểu thể hiện về chân thành và ý nghĩa của các phát triển thành trước lúc so với.

lúc các phát triển thành multinomial variable lộ diện là những biến hóa response, bài toán thù hay vươn lên là bài toán thù phân lớp các tầng (multilevel classification). lúc những vươn lên là này lộ diện dưới dạng các features, chúng hay được represented bởi một vài ba thay đổi nhị phân; ví dụ, trong ví dụ về Xu thế chủ yếu trị ngơi nghỉ trên, cùng với 3 lớp Democrats/Republican/Neutral, chũm bởi vì được represented là một,2,tốt 3, nó hoàn toàn có thể được represented do 2 biến chuyển nhị phân X1 = Democrats/Not Democrats và X2 = Republican/Not Republican. Theo bí quyết này, một tín đồ Democrats sẽ được code là (1,0), một bạn Republican được code là (0,1), với một bạn Neutral được code là (0,0). Vì cầm, các đối chiếu như vào trở thành binary variable (ANOVA/ANCOVA) rất có thể được vận dụng.

Một trường hợp tuyệt gặp Khi làm việc cùng với những phát triển thành nhị phân cùng multinomial variable là câu hỏi extremely unbalanced data thân các phân lớp, có nghĩa là số lượng dữ liệu ở các cấp độ cực kỳ khác biệt. lấy một ví dụ, lúc hy vọng thành lập quy mô dự đoán thù liệu một người có ý định sở hữu ô tô trong 3 mon sắp tới đây, số lượng biến response dìm quý hiếm No (ko mua) chỉ chiếm đại đa phần (một dataset bản thân đã nhìn thấy tỉ lệ này khoảng tầm 95%). Nếu một mô hình phân lớp được chế tạo với toàn thể dataphối này, nếu như bạn ko chú ý hiện tượng lạ này, bạn sẽ thấy độ đúng mực (accuracy rate) rất cao, nhưng lại thực ra lại không có nhiều ý nghĩa sâu sắc. Bởi bởi, bao gồm cả chẳng có tác dụng quy mô gì, chỉ từ Việc quan tiền gần kề dữ liệu, nếu một tín đồ dự đoán toàn bộ rất nhiều là No, độ đúng mực sẽ lên tới mức 95%. Điều quan trọng đặc biệt trong số mô hình này không phải là độ chính xác, mà là false negative sầu rate – tỉ lệ thành phần số fan chúng ta dự đoán không sở hữu xe mà người ta đã sở hữu xe cộ đích thực. Một kĩ thuật thịnh hành với những extremely unbalanced data là câu hỏi áp dụng undersampling và oversampling để làm cho data set trngơi nghỉ nên balanced. lấy ví dụ bạn bao gồm 1000 quan lại ngay cạnh cùng với 950 No cùng 50 Yes, undersampling lựa chọn ra thiên nhiên 50 quan gần kề No, với ghxay lại cùng với 50 Yes nhằm tạo thành một balance datamix cùng với 50 quan tiền ngay cạnh sinh hoạt mỗi phân lớp. Ngược lại oversampling thì replicate mỗi 50 quan lại giáp Yes 19 lần, tạo ra một balance cùng với 950 quan liêu liền kề sinh sống từng phân lớp. Các quy mô phân lớp bên trên các oversampled/undersampled dataphối cho ta một tranh ảnh tốt rộng về khả năng dự đoán của những quy mô.

Tuy thế, những cách under/over sampling này cũng có khá nhiều nhược điểm, nhỏng có tác dụng thay đổi phân păn năn của dữ liệu và ngân sách mang đến câu hỏi làm cho này quan trọng béo vào big data; một vài bí quyết làm không giống, như theo comment của chúng ta Nguyễn Tiến Đức, mang tính chất kinh nghiệm hơn, sẽ là việc thay đổi các ttê mê số của hàm mất non (loss function), thường được sử dụng area under the curve sầu (AUC) của ROC nhằm kiểm soát và điều chỉnh precision/reĐiện thoại tư vấn của classification. Hoặc một giải pháp khác, đó là Việc sử dụng các algorithm cơ mà work well cùng với unbalanced data – nlỗi tư vấn vector machine (SVM). Tóm lại, bạn sẽ luôn luôn buộc phải cẩn trọng cùng với Việc chọn algorithm với criteria để reviews các algorithm khi có unbalanced data.

4. Count variable (Biến đếm)

Một trường hợp phổ biến không giống là bọn họ có dữ liệu về số lần/con số một sự kiện xẩy ra trong một khoảng tầm thời gian khăng khăng, ví dụ con số tai nạn giao thông vận tải vào 1 năm, số lượng ca mắc bệnh dịch bắt đầu, etc. Đó là ví dụ về count data (biến đếm).

Lúc trở thành đếm xuất hiện dưới dạng các features, thường thì nó được áp dụng như một trở thành liên tục. Bởi bởi vì tuy vậy các quý giá của nó luôn là số nguyên ổn, nó luôn có tính máy tự với có tính so sánh (một sự khiếu nại xẩy ra 2 lần thì ít hơn 3 lần). Trong các quy mô đơn giản và dễ dàng như quy mô hồi quy tuyến đường tính, ý nghĩa sâu sắc của hệ số cùng với các biến chuyển count có thể được diễn giải nhỏng cùng với các vươn lên là tiếp tục hoàn toàn phù hợp. Ví dụ, Lúc bạn muốn hồi quy về độ đậm đặc CO2 trong bầu không khí và con số hoa cỏ vào vùng, bạn trọn vẹn có thể nói rằng cứ thêm một cây xanh nồng độ CO2 tăng/sút một lượng khăng khăng.

Tuy nhiên, Khi đổi thay đếm xuất hiện là 1 trong những response variable, ĐK đổi mới đếm bắt buộc là số nguyên ko âm là 1 trong ĐK ràng buộc. Ví dụ, trong nghành bảo hiểm, bạn muốn quy mô con số tai nạn giao thông vận tải của một bạn dựa vào những yếu tố như thu nhập, nghề nghiệp và công việc, tuổi tác, nam nữ, etc. Nếu bạn áp dụng phần lớn mô hình cho trở thành liên tiếp nhỏng mô hình hồi quy tuyến tính, dự đoán của chúng ta có thể dự đân oán số lượng tai nạn ngoài ý muốn giao thông vận tải là số âm. Hơn nữa những đổi mới count data thường bị lệch rất nhiều – tức là con số những cực hiếm thấp nhỏng 0,1,2 chiếm đa phần, nhưng cũng có một ít những quý hiếm cao (nhỏng 15,16,…) – trong khi quy mô hồi quy tuyến tính thường thì cùng với phân phối chuẩn chỉnh giả định những response khá đối xứng.

Mô hình thịnh hành cho các biến hóa count data ngơi nghỉ response variable là Poisson regression (quy mô hồi quy Poisson), negative sầu binomial regression, cùng các phiên bản của 2 quy mô này để kiểm soát và điều chỉnh đến overdispersion. Một ngôi trường thích hợp cũng tốt chạm mặt là mô hình của những sự kiện hiếm hoặc không nhiều (rare event – extremely rare event) – gần như sự khiếu nại này hay được quyên tâm lớn vì chưng Tuy nó hiếm khi xảy ra, nhưng khi xẩy ra, ngân sách hoặc loss thường rất to lớn, chính vì như thế đòi hỏi quy mô tất cả độ đúng chuẩn Khủng. ví dụ như ví như bạn muốn mô hình con số tai nạn đáng tiếc lắp thêm bay cực kỳ nghiêm trọng xẩy ra trong một năm, bạn sẽ bắt buộc sử dụng những rare sự kiện models.

5. Ordinal variable

Trường hòa hợp phổ biến của biến hóa loại này là các likert scale, Lúc tài liệu nhận được theo phong cách những câu hỏi “Đánh giá cường độ sử dụng rộng rãi với sản phẩm trên thang điểm từ một mang lại 10”. Nếu những vươn lên là này xuất hiên bên dưới dạng những features, thông thường có thể sử dụng nó như một đổi mới tiếp tục.Dù vậy, nếu như những biến hóa này là các response, các đổi thay này hoàn toàn có thể xem nhỏng một sự lai tạp giữa những biến multinomial và trở thành thường xuyên. Nhìn qua, các biến chuyển này có vẻ gần giống với trở thành multinomial ở đoạn, các chúng ta cũng có thể coi nhỏng từng nút thang (từ 1 cho 10) như một level; thế nhưng, ko giống như những biến đổi multinomial, những levels này có tính vật dụng trường đoản cú. Ngược lại, nó ko hoàn toàn nhỏng thay đổi liên tiếp, vị những quý hiếm của nó luôn là số nguyên ổn, với những scale của nó hoàn toàn có thể hơi tuỳ luôn thể (dịp thì thang điểm từ là 1 cho 5, thời điểm thang điểm lại tự 5 mang lại 10, v.v). Kiểu dữ liệu này đem lại phần đông mô hình trung gian thân hồi quy (regression) và phân lớp (classification).

Một mô hình phổ biến của trường hợp này là các quy mô với biến hóa ẩn (latent variable model). Quay lại cùng với ví dụ ở bên trên về cường độ chấp thuận. Mô hình đổi thay ẩn này cho rằng, mức độ ăn nhập thiệt là 1 trong vươn lên là liên tiếp tự 0 mang lại 10, với những quý giá số nguim trong likert scale đã tương xứng với cùng 1 khoảng chừng của thay đổi tiếp tục này. lấy ví dụ như, nếu đổi thay liên tiếp có giá trị trường đoản cú 0 mang lại 1.8, bên trên likert scale sẽ là 1, từ là một.8 mang lại 2.9, bên trên likert scale đang là 2. Bài toán thù biến hóa tìm các điểm giới hạn cho từng likert score bên trên các biến đổi liên tiếp (như các tiên phong hàng đầu.8 tuyệt 2.9 vào ví dụ làm việc trên). Rõ ràng, đổi mới thường xuyên này sẽ không quan gần kề được, nên được gọi là vươn lên là ẩn.

Phần ngơi nghỉ bên trên mình nói đến những phong cách tài liệu hay chạm chán phân một số loại theo những quý hiếm nó hoàn toàn có thể dìm, tiếp sau đây đang là những đặc thù tài liệu trải qua đặc điểm của quá trình tích lũy.

B. Phân một số loại theo đặc thù của quy trình tích lũy

Cross-sectional data (Dữ liệu giảm ngang)

Cross-sectional data là dạng hình tài liệu đơn giản và dễ dàng tốt nhất, khi những vươn lên là số chỉ được thu thập tại một thời điểm nhất định, hoặc quý giá của những đổi thay số gần như không đổi khác theo thời gian hay không gian trong phạm vi của phân tích. Mục đích thiết yếu của bài toán thực hiện cross-sectional data là khi bạn quan tâm nhiều hơn nữa cho tới các vươn lên là số và mối quan hệ giữa chúng dựa trên bản chất của nó, chứ không hề quan tâm cho tới liệu các biến chuyển số với những mối quan hệ biến đổi theo thời gian/không gian như thế nào. ví dụ như, bạn sẽ thực hiện một cross-sectional data nếu còn muốn mày mò mối quan hệ thân thu nhập cá nhân cùng trình độ chuyên môn học vấn nói chung, không nhắc tơi việc thu nhập và học vấn đổi khác theo thời gian thế nào.

Đặc điểm quan trọng nhất của những quan lại giáp trong cross-sectional data là hoàn toàn có thể coi nó hòa bình (independent), cùng vì vậy các quan giáp hoàn toàn có thể exchangable (trong ví dụ nói trên, các bạn tích lũy các khoản thu nhập cùng học vấn của tín đồ 1 hay bạn sản phẩm 1000 trước không quan trọng, với định danh của fan 1 giỏi người thứ 1000 is indistinguishable). Nhận dạng cross-sectional data kha khá dễ dàng và đơn giản bằng câu hỏi bạn ko thấy yếu tố thời gian được cung ứng trong những biến hóa số. Các quy mô đến cross-sectional data là những mô hình cơ phiên bản duy nhất.

2. Time series data và Panel data: (Dữ liệu theo chuỗi thời hạn cùng dữ liệu mảng)