数据是做研究的重中之重,好的真实的数据集会大大方便我们的研究。并且能够更好地反馈真实数据,如果数据出现了错误,就会导致论文结论出现错误。今天这篇文章将详细的介绍下写论文时数据如何获取!
序言
据古森了解,除了专业性比较强的专业外,一般的专业都很少接触数据相关的问题。如果有接触数据的经历,大多数情况下,老师都会提供数据集。当然,我的专业对数据接触是比较多的,我在实验室做项目大多数是做大数据相关的研究。在我印象中,我当时在实验室做项目,差不多近两年的时间,很少有情况自己去找数据集。大多数情况下,都是老师会给我们说好到哪里获取数据,又或者是直接将数据文件拷贝给我们。
就个人经历而言,我获取数据的经历有:
1. 无特定需求,自己生成某种分布数据
2. 去做研究的数据网站直接获取,比如UCI数据集
3. 老师提供数据,企业单位提供数据
4. 特定需求,从特定平台获取,比如天池、DF获取实时真实的数据资料
上面是我在实验室的时候获取数据资料的方法途径。这里特别强调两个数据资源
第一,UCI数据集 : https://archive.ics.uci.edu/ml/index.php
这个数据集真的真的非常好用,数据资料特别丰富,如果你正在研究机器学习,大数据相关的项目或者学习,含有视觉、图像、监督学习等等。这个这个站点你一定要记下来,他的数据小而美,经过了专业的处理,做研究是非常方面的。当然,这只是专门就个人专业方向来讲,不同专业有不同的途径获取专业性更强的数据。
第二,大数据竞赛平台
这种方法获取的数据都是真实的数据,各个方向都有,数据量特别大,有几十M到几十G的数据,常见的平台如:阿里天池、DataFountain、数据城堡等。为了避免专业壁垒,不做过多强调
数据资源大全
上面介绍个人专业的有点多了,如果有与古森专业相关的小伙伴,我相信你对你一定有帮助。下面我们来介绍一下不同专业怎么获取自己所需的数据呢!看到这篇文章,那你真的算是走运了,因为这份数据资源涵盖了十余个大的领域,数据丰富,一定能够在你找数据时助你一臂之力!
这原本是我在知乎回答的一个问题,目前浏览量已经超过10w,看来它还是得到了大家的认同,所以将其整理后发布在【大学同人】,方便大家自取。
那么数据涵盖了哪些领域了,下面请看:
这是目录,经过古森整理,将其制作成了PDF,整整36页呢。
然后是具体的数据资源
当然也有英文版本,已经放在文档中了,如果你写论文没有数据参考的话。赶快试试这份资料吧,或许有惊喜哦!
简单的使用介绍,首先大家要注意,因为很多站点都是国外站点,所以有梯子的尽量使用梯子,速度快一些,没有梯子的速度会非常慢。
使用攻略
首先锁定领域,比如我要找机器学习相关的数据,那么先在目录里找到数据挑战
所以一个想要的数据资源,比如我要找Kaggle比赛数据,点击进入,都是超链接的形式:
因为不同的站点,呈现的方式不同,所以自己要在页面里寻找一下,比如这个站点的数据在这里:
得到以上信息后,就可以进行数据下载了。文档内容丰富,大家还需自己探索,相信一定能够帮助到你们。
行业研究报告
行业研究报告也非常重要,通常在写论文背景时,需要使用严谨的数据作为,支撑,那么这时,行业研究报告就可以起作用了。因为每隔一段时间,知名的企业都会做自己公司的报告,或者行业内的报告。
比如以下的报告:
目前给一个方法作为备用:后台回复 “树枝学术” 自行查询,后序如果需求强烈,再另写文章叙述。
最后,怎么获取这份数据了?直接在后台回复 “学术数据” 就可以啦!今天的文章就写到这里啦,垒字真的好难呀:( 欢迎小伙伴们在本文章下评论,发表意见哦!!!
END 【大学同人】发布
欢迎大家点个在看,分享至朋友圈
seize the day,carpe diem
在你奋斗的时候 -
大学同人
分享干货,带你学习