Bảng B: Cuộc thi Khoa học Dữ liệu (Data Science Competition)

Bảng B của cuộc thi hướng đến một cuộc thi học thuật về Khoa Học Dữ Liệu. Ở bảng này cuộc thi được tổ chức tương tự như các cuộc thi học thuật khác trên thế giới như VQA challenge, SemEval, hay các cuộc thi học thuật ở Việt Nam như VLSP Shared Tasks Challenge và AI HCM Challenge. Đề tài của cuộc thi Thách thức Khoa Học Dữ Liệu năm nay xoay quanh chủ đề “phân biệt tin thật, tin giả trên mạng xã hội”.

Công nghệ thông tin và truyền thông đã và đang phát triển với tốc độ nhanh đến chóng mặt. Điều này giúp cho người dân có thể dễ dàng tiếp cận và nắm bắt thông tin nhanh chóng và thuận tiện hơn. Tuy nhiên, sự phát triển nhanh chóng này cũng nảy sinh ra yêu cầu cần phải xác thực tính đúng đắn của thông tin. Nhằm đặt những viên gạch đầu tiên cho việc nghiên cứu bài toán này trên tiếng Việt, bảng B cuộc thi UIT Data Science Challenge 2023 có nội dung xoay quanh bài toán Kiểm tra tính Chính xác của Thông tin dựa trên một Đoạn văn bản, công bố bộ dữ liệu ISE-DSC01. Sử dụng bộ dữ liệu ISE-DSC01, các đội tham gia cần xây dựng một hệ thống sao cho khi hệ thống nhận vào 01 câu claim và 01 văn bản, hệ thống đó có khả năng chỉ ra được câu claim đó là được củng cố (SUPPORTED), hay bị bác bỏ (REFUTED) bởi nội dung của văn bản, hay không thể xác thực được thông tin nếu chỉ dựa trên văn bản đã cho (Not Enough Information – NEI). Trong trường hợp hệ thống xác định được câu claim là SUPPORTED hoặc REFUTED thì hệ thống cần chỉ ra được EVIDENCE.

Timeline

Thể lệ cuộc thi

1. Các nhóm đăng ký tham gia phải ghi đầy đủ thông tin của các thành viên theo hướng dẫn của form đăng ký. Mỗi nhóm đăng ký tham gia không quá 05 thành viên. Thông tin quan trọng cần điền bao gồm Họ tên, MSSV, ngành học, khoa, trường đại học và tên nhóm. Nhóm trưởng đại diện nhóm đăng ký điền thông tin cho các thành viên và phải sử dụng tài khoản sinh viên do trường đại học cấp. Việc thay đổi số lượng thành viên của nhóm hoặc thông tin của các thành viên sau khi đóng đơn đăng ký tham gia cần được thông báo đến BTC qua địa chỉ email dsc@uit.edu.vn và chỉ được thay đổi khi BTC cho phép. Tên nhóm tham gia sẽ được sử dụng làm cơ sở để BTC duyệt quyền tham gia vào cuộc thi trên CodaLab.

2. Tài khoản và thông tin của nhóm trưởng (bao gồm ngành học, khoa và trường) được sử dụng để BTC liên lạc, gửi các thông báo liên quan đến cuộc thi, đại diện nhóm nộp sản phẩm về BTC, thông tin trao giải và vinh danh đơn vị có nhóm sinh viên đạt giải thưởng.

3. Các nhóm cần sử dụng email đăng ký cuộc thi để tạo tài khoản trên CodaLab cũng như đặt tên nhóm theo tên nhóm đã đăng ký để được cấp quyền truy cập vào CodaLab của cuộc thi.

4. Các đội đăng ký tham gia sẽ được nhận đường dẫn đến trang CodaLab để tham gia vào cuộc thi thông qua email của các nhóm trưởng.

5. Các đội chỉ được sử dụng bộ dữ liệu ISE-DSC01 do BTC cung cấp trong suốt quá trình tham gia cuộc thi, không gán nhãn thủ công trên tập public test và private test cũng như sử dụng các phương pháp tăng cường dữ liệu.

6. Các đội tham gia phải đề xuất các phương pháp phải huấn luyện hoặc fine-tune trên bộ dữ liệu ISE-DSC01. Bất kỳ kỹ thuật nào dựa trên prompt (chẳng hạn như zero-shot, one-shot, few-shot prompting) cũng như việc sử dụng ChatGPT, BARD và GPT-4 đều không được phép.

7. Các đội chỉ sử dụng các mô hình ngôn ngữ tiền huấn luyện đã được BTC thông qua. Các đội thi sử dụng bộ dữ liệu khác cũng như mô hình ngôn ngữ tiền huấn luyện không được BTC thông qua sẽ không được công nhận kết quả trong cuộc thi.

8. Ở vòng private test, tất cả các đội tham gia chỉ được submit tối đa 03 phương pháp khác nhau, mỗi phương pháp chỉ được submit 01 lần trong 01 ngày. Kết quả sẽ được lấy từ phương pháp cho kết quả cao nhất trên tập private test.

9. Các đội top 5 cần công khai source code cho BTC để BTC kiểm định kết quả trên private test.

10. Các đội top 3 cần báo cáo kỹ thuật trong buổi lễ Tổng kết và Trao giải của cuộc thi.

11. Mỗi nhóm tham gia cần nộp lệ phí tham gia 50,000 VNĐ.

Tiêu chí đánh giá

Bài toán của bảng B cuộc thi UIT Data Science Challenge 2023 yêu cầu các phương pháp từ các đội thực hiện 02 tác vụ: (1) kiểm tra thông tin bằng cách phân loại claim về 03 verdict: SUPPORTED, REFUTED hoặc NEI, và (2) đưa ra EVIDENCE nếu claim được cho là SUPPORTED hoặc REFUTED.

Thông số đánh giá sẽ được trình bày chi tiết ở trang CodaLab của cuộc thi.

Giải thưởng


Cuộc thi Khoa học dữ liệu UIT 2023

Sứ mệnh

DSC@UIT được tổ chức thường niên nhằm thúc đẩy và phát triển Khoa học dữ liệu Việt Nam, nâng cao trải nghiệm, nghiên cứu và ứng dụng Khoa học dữ liệu của sinh viên Việt Nam.

Tầm nhìn

DSC@UIT trở thành cuộc thi Khoa học Dữ liệu uy tín và hàng đầu tại Việt Nam.

Liên kết nhanh

Số lượt truy cập

web counter

© Copyright Cuộc thi Khoa học dữ liệu UIT – Khoa Khoa học và Kỹ thuật Thông tin, Trường Đại học Công nghệ Thông tin – ĐHQG TP. HCM