chỉ số trích dẫn CI

citation index 1024x683 - chỉ số trích dẫn CI

Chỉ số trích dẫn (citation index) của một ấn phẩm, do Eugene Garfield đề xuất năm 1955, là số lần ấn phẩm này được trích dẫn, được tham khảo trong tất cả các ấn phẩm khác . Từ đó đến nay, chỉ số trích dẫn đã được dùng làm một độ đo quan trọng để đánh giá các công trình nghiên cứu, là cơ sở để định nghĩa các độ đo khác cho các tạp chí và nhà khoa học. Câu hỏi có thể làm ta ngạc nhiên là tại sao một chỉ số đơn giản như vậy lại được dùng rộng rãi cho đến nay để đo chất lượng và giá trị các công trình khoa học? Có thể nói chỉ số trích dẫn được “tin dùng” do dựa trên một giả định được thừa nhận rộng rãi, là các nhà khoa học có ảnh hưởng hơn, các công trình quan trọng và có giá trị sử dụng hơn thường được trích dẫn nhiều hơn. Nói nôm na, chỉ số trích dẫn đo mức độ “hữu xạ tự nhiên hương” của các ấn phẩm.

Đặc điểm đáng chú ý nhất là chỉ số trích dẫn chỉ có ý nghĩa so sánh trong từng ngành khoa học.
Điều đã biết này được khảo sát định lượng qua thống kê số lần trích dẫn trung bình của các bài báo trong các ngành khoa học. Các bài báo trong các ngành khoa học về sự sống (life sciences, như sinh học phân tử và tế bào, y sinh học) có trung bình khoảng 6 trích dẫn, trong vật lý và hóa học khoảng 3 trích dẫn, trong toán học, tin học và khoa học xã hội khoảng 1 trích dẫn (hình vẽ). Theo các số liệu thống kê trên −để có
một định ý và giả sử số trích dẫn trong các ngành tăng một cách tuyến tính− trong một chừng mực nào đấy có thể xem bài báo ngành toán có trích dẫn mười lần là được trích dẫn nhiều trong ngành này như một bài trong ngành vật lý được trích dẫn khoảng ba chục lần hay một bài trong ngành khoa học sự sống được trích dẫn khoảng sáu chục lần.

Có nhiều lý do dẫn đến sự khác biệt lớn như vậy giữa các ngành về chỉ số trích dẫn của các ấn phẩm khoa học, mà chủ yếu do khác biệt về “văn hóa ngành”. Văn hóa này phụ thuộc vào bản chất khoa học, cách làm và cách công bố nghiên cứu. Trong khi cần những nghiên cứu nghiêm túc về khác biệt chỉ số trích dẫn trung bình giữa các ngành, người viết nêu ý kiến riêng của mình dưới đây và cho rằng mỗi người đọc nên thử tự lý giải điều này. Các nghiên cứu thực hiện trên các ý tưởng trừu tượng, lập luận và tính toán như trong toán học, vật lý lý thuyết hoặc tin học, thường ít liên quan, ít “dựa” hơn vào các nghiên cứu khác cùng lĩnh vực. Các nghiên cứu chủ yếu bằng thực nghiệm, thường cần nhiều liên hệ và so sánh với các nghiên cứu cùng lĩnh vực về phương pháp và kết quả, và do vậy khi khẳng định tính mới mẻ của kết quả và để thuyết phục cần đưa ra nhiều trích dẫn (chứng cớ) hơn.
Đặc điểm quan trọng thứ hai cần biết rõ là các chỉ số trích dẫn tính được từ các nguồn khác nhau thường khác nhau và có sai số.

ĐỌC:  Bài báo khoa học P7: Cách dùng tiếng Anh

Sau khi nêu khái niệm chỉ số trích dẫn, Garfild xây dựng Viện Khoa học Thông tin ISI (Institute for Scientific Information)−gần đây sát nhập vào tập đoàn Thomson Reuters− và thiết lập các cơ sở dữ liệu ISI, trong đó tiêu biểu là:

  1. Cơ sở dữ liệu Chỉ số Trích dẫn Khoa học SCI (Science Citation Index), từ 1964, hiện có 3773 tạp chí của 100 ngành và cơ sở dữ liệu SCIE (SCI mở rộng, Science Citation Inex Expanded) với 8207 tạp chí của 150 ngành;
  2. Cơ sở dữ liệu Chỉ số Trích dẫn Khoa học Xã hội SSCI (Social Sciences Citation Index), từ 1973, hiện có 2697 tạp chí và 3500 công trình của 50 ngành;
  3. Cơ sở dữ liệu Chỉ số Trích dẫn Nghệ thuật và Nhân văn A&HCI (Arts & Humanities Citation Inde), từ 1978, hiện có 1470 tạp chí và 6000 công trình khác.

Ngoài ra, cũng cần kể đến cơ sở dữ liệu Chỉ số Trích dẫn Tuyển tập Hội nghị CPCI (Conference Proceedings Citation Index) chứa thông tin của hơn 110,000 tuyển tập hội nghị kể từ năm 1990 của 256 ngành thuộc về khoa học tự nhiên và khoa học xã hội nhân văn (chú ý là uy tín của các tạp chí ISI và hội nghị ISI khác nhau đáng kể). Các cơ sở dữ liệu ISI tuyển chọn các tạp chí ảnh hưởng nhất của các ngành. Từ 1997, bảy cơ sở dữ liệu ISI được chuyển lên mạng dưới tên Web of Science (http://isiwebofknowledge.com).

ĐỌC:  Bài báo khoa học P8: Văn phong khoa học

Quãng trên dưới mười năm trở lại đây, Web đã cho ra đời hơn 100 cơ sở dữ liệu và công cụ cho phép tìm kiếm chỉ số trích dẫn, như arXiv, CiteSeer, ScienceDirect, SciFinder Scholar, PubMed, … Trong số này, Scopus của Elsevier (http://info.scopus.com, từ 2004) và Google Scholar của Google (http://scholar.google.com, từ 2005) cùng với Web of Science đang là ba hệ phổ biến nhất . Scopus chứa thông tin của 16.500 tạp chí, 600 ấn phẩm nghề nghiệp, 350 loạt sách chuyên khảo, khoảng 3,6 triệu bài báo từ hội nghị. Google Scholar chứa thông tin của hầu hết các tạp chí có thẩm định của các nhà xuất bản lớn tại châu Mỹ và châu Âu, các báo cáo kỹ thuật, luận văn, sách và nhiều loại tài liệu khác (Google Scholar không công bố danh sách các tạp chí của mình).

Cần lưu ý là chỉ số trích dẫn của mỗi ấn phẩm khoa học tính từ các nguồn kể trên thường khác nhau vì chúng có số lượng tạp chí, kỷ yếu hội nghị, … khác nhau. Một thí dụ là cuốn sách Quantum Computation and Quantum Information của M. Nielsen và I. Chuang (xuất bản năm 2000, Cambridge University Press). Tính đến năm 2007, từ Web of Science cuốn sách này được trính dẫn hơn 2800 lần, nhưng từ Scopus số trích dẫn là 3150, và từ Google Scholar có 4300 trích dẫn . Một khảo sát khác phân tích chỉ số ảnh hưởng của 328 bài báo từ ba tạp chí y học hàng đầu trong thời gian 6 tháng của mười năm về trước . Các tác giả chỉ ra số lượng trích dẫn của các bài báo này từ ba nguồn kể trên là rất khác nhau: từ Web of Science có 68.088 trích dẫn, từ Scopus có 82.076 trích dẫn và từ Google Scholar có 83.538 trích dẫn (gấp 1.226 lần so với Web of Science).

Các công cụ tìm kiếm (search engine) thường cho kết quả đúng về chỉ số trích dẫn của một bài báo trên một cơ sở dữ liệu cố định do tên của bài báo thường là duy nhất và xác định, nhưng không luôn cho kết quả đúng với các độ đo liên quan tới một tác giả cụ thể như tổng số trích dẫn hoặc số ấn phẩm của một tác giả có trích dẫn nhiều hơn một ngưỡng nào đó (như chỉ số H), do nhiều tác giả có thể có tên trùng nhau hoặc giống nhau khi viết tắt.

ĐỌC:  Chỉ số H sức mạnh của người công bố

Có hai độ đo cơ bản về chất lượng của các công cụ tìm kiếm là độ chính xác (precision) và khả năng tìm hết (recall). Độ chính xác là tỷ lệ của số tài liệu tìm được và tìm đúng trên số tài liệu tìm được, còn khả năng tìm hết là tỷ lệ của số tài liệu tìm được và tìm đúng trên toàn bộ số tài liệu cần tìm. Các công cụ tìm kiếm hiện nay cho kết quả của hai độ đo này chưa cao. Trong việc tính hệ số trích dẫn, độ chính xác thấp chủ yếu do các hệ tìm kiếm tự động hiện chưa phân biệt được các tác giả có tên trùng nhau hay giống nhau, và khả năng tìm hết của các hệ còn thấp chủ yếu do các cơ sở dữ liệu hiện nay không có được tất cả các ấn phẩm có trích dẫn đến bài báo đang xem xét.

Độ chính xác khi tìm chỉ số trích dẫn của các tác giả có tên phổ biến nói chung thấp hơn của các tác giả có tên ít gặp. Thí dụ khi tìm trên Google Scholar tổng số bài được trích dẫn của tác giả Nguyễn Anh Tuấn, ta gõ tên “Nguyen Anh Tuan” và hệ tìm được 100 bài báo có trích dẫn. Thường thì không phải tất cả 100 bài này đều của Nguyễn Anh Tuấn. Giả sử trong số 100 này chỉ đích thực có 60 trong số tất cả 80 bài có trích dẫn của Nguyễn Anh Tuấn, và trong số 40 bài còn lại có 5 bài của tác giả Nguyễn Ánh Tuấn, 35 bài của tác giả Nguyễn Anh Tuân. Khi này, độ chính xác về trích dẫn của Nguyễn Anh Tuấn do hệ tìm được là 60/100 = 0.6 và khả năng tìm hết là 60/80 = 0.75. Khi tìm trên Google Scholar chẳng hạn cho tác giả Khuất Phương Trưởng (Khuat Phuong Truong), độ chính xác thường sẽ cao hơn.

(Bài viết sưu tầm)

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *