机器学习告诉你,高被引论文的五大特征

2020-09-17 15:16:24

dota2竞猜

来源:Nature自然科研

高被引和低被引论文的差异揭晓。

如何提高论文的影响力是许多科研人员迫切想要掌握的秘籍。

不久前,我从MDPI(多学科数字出版机构)上下载了涉及各个领域的202本开发获取期刊上的200篇文章,其中一半的被引率很高,另一半的被引率较低。

随后,我在数据库中运行了一种名为主成分分析的机器学习技术,看看是否能发现高被引文章的特点。

当然,相关性并不意味着因果性,这些论文的高引率并不是因为它们做到了以下几点;而很有可能是因为文中所陈述的科学内容。

话虽如此,我还是希望以下内容能帮到你。

标题控制在7-13个字

标题在传达论文主旨方面具有至关重要的作用。此前有研究发现,标题长度确实能影响文章的被引量。

除了上面提到的100篇高被引论文和100篇低被引论文之外,我还分析了2014年《自然》发表的引用量排名前100名的论文(数据来自谷歌学术)、2014年Web of Science索引前100篇论文,以及2018年Altmetric排名前100名的论文。

以上分析揭示了这些文章的一个共性:引用率高的论文标题都不长。具体而言,影响力较高的论文标题一般为10个字(± 3个字)。

以下为各个数据库排名第一的高被引论文:

•MDPI:“Liposomal Formulations in Clinical Use: An Updated Review”(8个字)

• 谷歌学术(Google Scholar):“Cleavage of Structural Proteins During the Assembly of the Head of Bacteriophage T4”(13个字)

• Web of Science:“Protein Measurement with the Folin Phenol Reagent”(7个字)

• Altmetric:“Mortality in Puerto Rico after Hurricane Maria”(7个字)

高被引论文的标题常用词

高被引论文中的常用词有很多相似之处,反映出了论文的主题和重点。

以下为每个数据库排名前五的常见词,从左至右依次递减:

• MDPI: Review, cancer, monitoring, recent, therapeutic。

• Google Scholar: Method, theory, analysis, applications, learning。

• Web of Science: Method, protein, DNA, multiple, new。

• Altmetric: Association, analysis, cancer, health, study。

作者人数6人或以上

我发现引用量和作者人数之间存在相关性。

这可能是因为每位作者都会在论文中做出自己的贡献,集中各自的圈子还能推升拥有相同研究兴趣的读者数量,反过来增加文章被引的可能性。

或者,更重要的原因在于好的科学研究一般都需要跨学科;因此,影响力较大的研究结果也更有可能由多位作者合作而成。

最少35000个字符(不含空格)

高被引和低被引论文的字符数(不含空格)差异显著。

高被引论文的字符数超过33600(包括参考文献),约5600字。

最少6张图、2张表

从我的分析结果来看,高被引和低被引论文在使用图和数据表方面也存在差异。结果显示,高被引论文倾向于更多地使用图和表。

秘籍在哪里?

总体来说,高被引论文最重要的三大特点是:阅读量(越多越好)、字符数(越多越好)、7-13个字的标题长度。

当然,做到以上几点并不保证能增加文章的引用率。真正能提高文章被引率和整体影响力的关键因素包括:期刊声誉、研究的原创性、选题的重要性、作者声望、期刊的可获得性(开放获取vs非开放获取),以及发表类型(论文、综述、通讯)。

如果先保证了以上几点,那么这些诀窍或能锦上添花,帮助进一步提高文章的阅读量和引用率。

上述文章中的五点诀窍只是作者统计分析的结果,论文的高影响力更多的跟论文中所陈述的科学内容有关,包括研究的新颖度和影响力、论点和论证、数据和图表以及其他细节等。

上一篇:

下一篇:

Copyright© 2015-2020 蒙城百科网版权所有