博士应该采取什么策略读文献?

问题描述:看到两种相反的观点: 1、尽可能多读并整理,全方位了解问题的背景和来龙去脉。 2、尽可能少读,而且每篇用很短的时间(20 min),只需要提取与课题直接相关的资讯即可,然后直接开始干活,干不动再找。期间读尽可能少的文献了解进展即可(类似于这个:Philip Guo - Opportunistic Paper Reading)。 想知道各位都是怎么做的。
, , , ,
高翔:

首先要夸奖和鼓励提问者,问得好!这个邀请也是邀到我心坎里了,谢谢!

我将以经济和金融背景来组织一个适合入门者的回答。

大家可能会觉到奇怪,但我认为这两种看似相反的观点其实都是正确的,只不过因为一个是长期策略,一个是短期策略,所以乍看是冲突的。细想想的话,我们在阅读文献时所采取的策略应当是综合的(短期为主)、非线性的(跳跃+反复)和相机而变的。

题主所说的第一种策略(即尽可能多读多整理,全方位了解问题的背景和来龙去脉)是一种以长期目标为导向的策略,而题主所说的第二种策略(即尽可能少读,读简介即可,只从文章里提取自己关心的资讯)则是一种以短期目标为导向的策略

所谓长期目标是指:了解你身处的领域中需要解决的最根大学部学问题(比如在国际贸易学中,最核心的问题就是what do we know about firms that trade),画出文献树,并跟踪该领域中活跃学者的实时动态。所谓短期目标是指:找出自己当下这篇论文拟写的题目和创新点、把初稿写出来,或者完成当前所承担科研项目的结项报告。

长期目标怎么才能达成?答案是通过完成一个又一个的短期目标。所以,我的第一个观点就是:应该日常性地采取第二种策略来读文献,然后心中饱含着我最终还是要达成第一种策略的念头。要在这个行当里持久地混下去,有时间的话,前面挖的坑迟早都是要填上的。

我的第二个观点是:有了读文献的策略,你还必须要目的性很强地去读,带着你的idea去读。Idea就是指自己的研究问题以及自己对该问题预想出来与众不同的解答。别人一听你的答案,一拍大腿,我tmd怎么就没想到,真是情理之中,预料之外啊。这里与其说是读文献,不如说是在文献中去找你所需要的东西(自己模型的来源,自己假设的支撑证据,fancy的计量方法,还是数据的来源等),否则读完就完了,转头就忘,毫无帮助。

结合上述两个观点,你该做的就是:第一步、找到自己感兴趣的领域;第二步、看综述性的论文找灵感;第三步、形成自己的idea并大致想好怎么论证你的idea;第四步、把idea列印出来,挂在书桌前面的墙上,按照上述短期性策略去读几十篇最相关的文献,找论证的方法和其他有用的东西。

接下来,我就结合自己在经济金融学领域(其他领域可能情况有所不同)撰写国际期刊论文(Fan and Gao, 2017)的经历,首先谈谈怎么形成自己的idea,然后再谈谈具体怎么实施这个读文献的短期策略。不过,这仅仅是科研的第一个阶段而已。在完成第一阶段以后,我们还要带着自己的idea去建理论模型、去收集处理数据、去做实证检验、去写代码,去做模拟,去写出来、去到处讲、去投稿、去反复改、去最终发表并启动下一个idea,等你在这个领域完成了不少idea以后,读文献的长期策略也就自然而然地体现于其中了。

怎么形成自己的idea?

这个其实和读文献是相辅相成的,如果读文献广阔到一定地步是不会烦恼这个问题,如果什么文献都还没读,或者只读了几篇,怎么办?我先讲几个不该是我们这种科研新手产生idea的来源。

第一个,能不能是看着新闻、读著小说时的灵光一现?不能够或者很难保证这样的idea能够得到主流的认可。

第二个,能不能是偶尔获取到了一小组新数据?不能够,就像你捡了一个鼠标垫,然后来问问配齐电脑还需要什么?

第三个,能不能是对现有文献或一篇论文的评论?不太好,将来你的文章是要给这些被评论的人来审的,大家都不喜欢别人专门写一篇论文来评论自己的工作,想想诗人和作曲家是多么讨厌诗评人和曲评人。

第四个,能不能接着某篇论文结论部分的、作者给未来科研人的建议去写?可能下场会很惨,你想想原作者自己怎么不接着做哪,写出来留给别人做?

最好的来源应当是:在了解某个文献整体情况的基础上,看看缺了哪块儿,哪里需要补上。所以我让大家去看看综述性的论文,对文献树有个大致的了解,带着自己是个职业科研人的认知,去找找看这个文献树里是不是各个方向都有了理论,但缺乏实证?还是多个理论模型有冲突,不知道哪个理论在哪种情况下是符合当前状况的?还是实证一大堆,却没有理论模型?还是这个领域的方法可以借镜到其他领域已经不错的方法?总之,要想想自己的idea怎么fit到某个文献里面去。

我们先要提出一个问题,这个问题得有意思,你自己要很感兴趣(要是一开始就是为了完成任务随便提出来一个,我敢保证以后你看到自己这篇论文就要吐,因为你要修改成百上千遍,就像找男女朋友要找个顺眼的,先不管其他,以后相处几十年,顺眼都不顺眼,就真没法坚持搭伙过日子了),大众也都很感兴趣,想知道答案的问题。而且这个问题吧,你怎么去回答好像都有一定道理,正著说反著说都可以,欸,这就是一个好问题。

接下来你要做的就是把这个问题变成一个学术问题,即保证自己能在两句话之内把这个问题清楚地描述出来。这两句话不应当是:甲这么做,乙那么做,我来小小改一改;也不应当是:我分析了某个有名的数据库(比如上市企业高管的薪酬数据),发现了许多有意思的结果。这里举个例子什么才是一个正经的学术问题。Fama and French(1992)在他们的高引论文里的简介部分,是这么总结他们的研究问题的:

Two easily measured variables, size and book-to-market equity, combine to capture the cross-sectional variation in average stock returns associated with market beta, size, leverage, book-to-to-market equity, and earnings-price ratios.

翻译一下,两个很容易获取到的指标,公司规模和股权的市值与账面值之比,和其他一些指标结合起来就可以解释为什么不同的公司发行的股票会有不同的投资回报率。这个问题是很有意思的,因为找出决定股价差异的因素对于基金经理是非常重要的,有人就写了一篇文章,发现用过去十几年里学术界找出来的许多个股价决定因素去选股,发现选出来的股票不再有超额收益了。这说明,业界已经把这些idea应用到投资过程中了,所以潜在的投机机会就消失了。

把你的问题也这么写出来,拿出给你炒股多年的老爸老妈和亲朋好友们讲讲,可能需要稍微对专业名词解释一下,如果他们能听懂了,而且表示想知道答案,这一步就算是成功了。

有了学术问题,你还得继续想你对这个问题的解答大概会采取一个什么思路,找到一个别人没有提出过的问题是比较困难的,但是想出一个新颖的解答还是可能性很高的。而且未必现有的解答做得足够细致,你就可以超越他,或者从另一个角度进行补充,这和Aorqu的玩法一模一样。如果你是一个有基本功底的研究者,目前的工作(即找出来问题和想出来问题的新颖解答思路)基本就已经决定了你这篇文章未来可发表杂志的等级,做得再细致或者做得较毛糙,则决定了这篇文章所发表的期刊是属于该等级中的佼佼者,还是该等级里面快降级的。

你也许会发现,解答的思路已经快被人家想完了,我怎么办?另辟蹊径地去思考,比如逆向思维、发散思维、递归思想等。这里举一个投行面试中关于逆向思维的数量问题做例子。

想像一个由10乘10乘10个小立方体组成的大立方体浮在空中,就像魔方一样,不过长宽高都是十个小方格,这时候刮风下雨,整个前后左右外立面上的小方格都剥落掉在地上了,现在问你地上掉了多少个小立方体。如果正向去想答案就很烦,因为出现在棱处的小方格两个面会重复计算,出现在顶角的小方格三个面都会重复计算。但如果反著去想答案就很简单,原来有10的3次方个小立方体,现在空中还剩8的3次方个小立方体。8的3次方就是2的9次方,学计算机的同学肯定知道:2的10次方是1024,那么2的9次方就是512,所以掉在地上的小立方体有1000-512=488个。思路对了,三秒出答案。

同理,你在想学术问题答案的时候也应当采取上述多种维度的思考路径。

读文献的短期策略到底应该怎样实施?

实施短期策略其实很简单,精读一篇论文的abstract摘要部分和introduction简介部分即可。题主说用短期策略去读一篇论文,二十分钟就可以完成是有些夸张了,除非你对这个文献非常熟悉。在不熟悉的情况下,由于精读摘要和简介要求完全理解一篇论文的宏观思路,所以可能需要反复读以及查阅其他资料,所以我觉得大致用时在几个小时是比较合理的。比如,我是这么读Hummels and Klenow(2005)年的一篇文章的,这篇文章研究的问题是:

Large economies export more in absolute terms than do small economies, we use data on shipments by 126 exporting countries to 59 imports countries in 5,000 product categories to answer the question: how?

翻译过来就是:有的理论说大国的国际贸易的数额增长是因为出口一种产品的数量多,有的理论说是因为出口商品的品种多,还有理论说因为出口商品的质量高所以定价高,到底谁说得对,我们来用详实的数据样本验证看看。

我精读了这篇论文的摘要,发现第一次读,看不太懂。这有可能是因为我不懂基础概念和理论的问题,有可能是我被英语句式误导了。怎么办?没有捷径,我读了十几遍,反正也就十几句话,每个句子的主语、谓语、宾语,每个不认识的术语都彻底搞清楚。也可以先读读introduction部分,再返回来读abstract,也许有些疑惑就解开了。当我发现我已经能够用自己的几句话把作者研究的问题、使用的方法和得出的结论都总结出来之时,这篇论文的abstract就算是读懂了。

接下来继续精读简介部分,我把Introduction的每一段,反正也就那么十几段,按照读abstract的方式来一段一段地读,比如我就做了这样的读书笔记,把每一段的核心思想讲什么都总结下来(如下图)。这篇论文的第八段是文献综述,我需要仔细瞧瞧这一段里面有没有我比较感兴趣的其他论文,如果有,那么就翻到参考文献部分把这篇文章也下载下来,看看概要。

你要知道,作者在写文章时的顺序是这样的,先草拟下来摘要和简介部分,然后把主要精力放在正文的写作上,最后再花很长的时间重写Introduction,有时候还需要请大牛来写introduction,因此introduction就是正文的精华,读懂了这篇文章如果不需要知道细节就可以算是看过了,abstract又是introduction的精华,所以这两部分是最最重要的。

好了,读完了,关掉文档pdf,别忘了给这个PDF文件改个名字,原来叫Final AER Version.PDF,我把它改成作者名加年份加发表期刊加主要idea加主要方法加我认为的亮点(当然有些地方就用缩写即可)。例如,Hummel & Klenow 2005 AER large country trade more testing for competing theories’ how.PDF。原来是放在桌面的,我现在放到Research文件夹下Trade,然后Traditional Theory,然后Empirics,哇,还有好多文章没读正文,没关系,慢慢来吧,至少把长期策略的文献树用文件夹嵌套文件夹的方式慢慢画出来了。

好累,看了半天的论文,我们现在去看看两位作者的主页,他们现在都做什么最新的研究项目,千万别让自己落后了,要知道发表出来的文章基本上是至少五年前的东西了,工作论文也是两三年前的东西了,work in progress可能还有些新鲜的观点,但是大部分是没有正文的,只能从题目里面猜猜这些大牛的idea;要知道他们时下正在做什么的话,还是去面谈或者认识他们吧。

最后,我用一张图把我建议的读文献步骤来总结一下,供大家参考

到这里,读文献这一部分的介绍就完毕了,别忘了我开头说过的,这只是科研的第一个阶段。

这里做一个小小的预告,以后如果有合适的问题,我会再接着介绍科研论文写作接下来的几个阶段,即怎么去建立理论模型(就是把你idea里面对问题的解答用数学语言或其他规范的语言讲出来),怎么去搜集处理数据(结合我建立中国金融机构操作风险数据库的经验),怎么去写作,怎么和大牛们建立联系,怎么选择期刊来投稿等等,欢迎感兴趣的同学们关注我,希望我的答案能给学术道路上的你一些帮助!

参考文献

David Hummels and Peter Klenow, 2005. The Variety and Quality of a Nation’s Exports, American Economic Review, Vol. 95(3), pp.704-723. 原文链接

Haichao Fan and Xiang Gao, 2017. Domestic Creditor Rights and External Private Debt, The Economic Journal, Forthcoming. 原文链接 中文解读

Eugenue Fama and Kenneth French, 1992. The Cross-Section of Expected Stock Returns, The Journal of Finance, Vol. 47(2), pp.427-465. 原文链接


张悦:

我说的可能不是策略,但可能比很多优秀的策略更能提高效率

很简单:

1.断掉外网
2.把手机放到一个自己摸不著的地方
3.远离零食

做到以上三条,百分之九十的人阅读速度将提高一倍以上。

我通常是不带手机列印好文献去图书馆,一支笔一个本一杯水足矣。


BarS:

说一下我个人的习惯,尽管是一个学渣,但是也有自己的经验的。背景补充:机械学科,系统动力学及其控制方向:
1.量的积累。博一时候校内另一巨牛学院的教授对他的博士们说过一句话:每天坚持读三篇论文,三年之后必成大器。当时第一感觉是一天读三篇这么少,有点不以为然,但当我自己真的来每天读三篇时,觉得要坚持下来真的不简单,因为太多不懂的地方要去外延。同一个机械系统,光控制方法就多如牛毛,比如PID、模糊、滑膜、遗传、神经网路等等,每一种方法想能够读懂能应用都需要花费大量时间。所以,刚开始一天都不一定能读满三篇。读文章我会将读过的文章觉得推演过程详细的,做一个标记,比如将文件名(网上下载的文献默认论文题目为文件名)前面我会标记“重点-XX方法推导”等记号,以后以后看题名即可知道内容。这样坚持读论文半年后,对所研究的领域基本了解了,基本的一些方法算例或自己建模或网上下载,都做过一定尝试。因此,读论文速度也快了。基本半年的时候,读论文会觉得有种千篇一律的感觉,读得也快了,如果没有亮眼的论文,半小时就可以翻3-4篇。
2.精读。在积累量的时候,我有提到过做标记,一般情况下我会照着值得精读的文章中的模型与方法复现作者的结果,尽管大多数时候是复现不了的(懂得同仁是不是腹黑的笑了)但是通过这个过程还是能够加深理解,并且积累模型数据,为自己做论文做积累。所以个人理解精读就是一个复现结果的过程。不然你永远不知道作者的意图。
3.如何利用不同级别的论文。刚入行时只觉得行业顶级SCI最牛逼最值得读,普通SCI能看,好的EI可扫一眼,除此之外全是垃圾。但是现在回想起来真是2羊2simple。我现在的观点是:所以论文都是有价值的,只时看你如何去利用它的价值点。介绍一下个人感受:掌握业界最新动态最新方法必须看顶级SCI,但是这些论文不一定能指导你复现结果,因为大多数都是极为繁琐的数学推演,比较晦涩;所以二流的SCI以及一流EI论文的价值就来了,这些文章的作者往往是顶级期刊的搬运工,然后做了一个具体化的工作,对于结果复现有帮助,同时结合一些同课题的博士学位论文,基本能够让我做一些复现的工作。如果在结果复现时对于软体使用有不理解,那么硕士学位论文以及一些非核心期刊论文的价值就来了,因为这类论文中不乏将操作步骤一一列举的文章。同时,对于拘提机械系统的力学、电、液方面的推导其实好的硕士论文会推演的更细致,毕竟博士论文的重点不在这一块往往一带而过。如果对系统的机械结构不太了解手边没有实物可看,那么那些大量存在的非核心期刊(俗称垃圾期刊)价值也有了,这类论文往往有大量的结构方案介绍,故障处理等内容。
以上时个人一些方法希望可以给到大家一点提示。现在上班了,还是会定期保持阅读论文,似乎已经成了一种生活习惯。给自己定的目标是,不管工作多忙,至少每年发表一篇论文。


Chen:

一般来讲,阅读文献数量决定了对所在领域的现状的了解,问题的认识和未来趋势的预测。因此,个人认为,尽可能少读容易抓不住领域的重点问题和已有工作撞车难以产生新的idea。而且从个人经验来讲,读10篇文章和100篇文章的感觉是完全不一样的。如果比作航海,读10篇时,灯塔依然朦胧,不时触到暗礁,读到100篇时,感觉萌萌哒。问题的核心在于那些文章需要精读那些只需要略读,精度和略读的比例占多少

本答案针对如何划分精读略读,以及如何进行精读和略读,主要是总结一下自己近期的一些经验。

0. 首先是文献的获取:
搜索引擎/数据库关键词搜索:比如Google scholar,IEEExplore: http://ieeexplore.ieee.org/,ACM ACM Digital Library等,通过自己研究方向找到相关文献。

其次是阅读文献中的引用文章,阅读文献时,参考文献中经常会出现熟悉的面孔,这些文章一般就是本领域比较重要的文章了。

@ Pengyao Jiang 介绍了自己通过google scholar的Alerts进行推送,google一般会将最近几天内相关关键词的文献推送到邮箱,这些文献都是领域内的最新进展。
ResearchGate也是一个不错的地方,关注一些大牛,会经常得到他们最新工作。
另外,AMiner – Open Science Platform 也是一个不错的地方,可以找到所在领域的大牛,关注他们的工作。

1.如何划分文献精读还是略读:

  • 个人的动机和目的:

略读:如果目的只是题主所说的“全方位了解问题的背景和来龙去脉”,那么多读读introduction就可以达到目的,或者找一些survey and tutorial,magazine来读,比如ACM Computing Surveys, IEEE communications survey and tutorial,和IEEE communication magazine。
甚至即使要弄清楚文章所假设的系统框架、场景,通过假设避免了那些条件/变量的影响,提出的核心问题,解决方法的优劣,那么略读也可以达到目的,这些作者都会在文章中交代,读读system model, simulation/experiments 即可。
精读:如果想学习文献的提出的新工具,新方法;理解新的架构和原来的差别,比如CCN (content centric network)和IP-based 网路的差别;在粗度的基础上产生了很多的为什么,并且觉得十分重要。那么这个时候,就要去关注主要内容中的重点部分,就得精读文章了。

  • 文章相关性、质量和影响力:

相关性不用多说,主要解决本领域问题的相关性强,借用本领域场景,或者交叉学科少量涉及的相关性若。
文章质量和影响力:
从side information可以看出一些,比如会议/期刊级别,作者个人成就,作者在本领域的贡献和持续研究的时间长短。例如在无线通信领域的IEEE ICC,Globecom等会议,IEEE Transaction on Wireless Communication等等一般质量都可以保障,写过无线通信基础的几位大牛Standford的Goldsmith和David Tse,USC的Molisch等。

  • 根据个人的目的与文章的相关性、质量和影响力,哪些文章需要精读的自然是很容易分辨的了。

2.略读:
审文章,写文章,和读文章是互相促进的,要略读首先要抓住文章的结构和要点。
一般文章结构如下图[1]:

首先看文章审稿是怎么样的过程[1]:
首先找到In this paper, 作者到底what does he/she/it 弄啥嘞,然后introduction找到具体的做法介绍,接着在主要内容中找到相应的支撑,最后看实验和模拟是否一致,确定是否接受。

那么略读文章的思路也是一致的,核心就是抓住审稿人想要抓住的重点:一句话说出这篇文章的贡献,以及和现有文献的区别。

再看写文章时的一般规则[1]
Abstract:一句话说出为何要做,怎么做的,结果如何,结论怎样。
Introduction:指路标,首先告诉你研究的领域在哪个国家,其次是哪个城市,最后是落脚点的位置,以及这个落脚点为何重要。
System model:场景,以及一些基本假设。
以上,即可达到略读的目标,略读完后,应该可以向别人讲出一个完整的故事,描述出完整的场景,能够起到对相关领域了解,以及进展现状的目的,同时也能激发自己产生很多为什么?至于要进一步弄懂这些为什么,进一步意识到还未解决的为什么,凝练新的idea,一方面需要自己的思考,另一方面则精读文章也很重要。

3.进一步精读:

  • 场景:与一般文献的场景有何不同,为何如此设置,找出原因,以及是否实际,作者怎样解释的。
  • 假设:假设条件有哪些精妙之处,实际系统是否能够如此假设,假设的条件是否成立。
  • 性能评估

评估的指标,评估的场景,基本的假设,改变任何一个,会发生什么。

  • 系统设计

优化问题:问题难度,P,NP,如何解决,解决的技巧,对性能的影响,复杂度。
非优化问题:演算法的设计思路,关键步骤的选择,其他的可能性。

新的架构:扁平化设计(3G->4G演进),控制/数据分离(SDN的设计),优劣特点,对性能的影响,何种评价指标。
新的方法:利用的场景的特性是什么,比如无线通信中的MIMO(Multiple-inut-multiple-output)是信道的衰落,IA(Interference Alignment)是干扰具有结构性的特点。

[1] Ling, C. X., and Q. Yang. “Crafting your research future.” Morgan & Claypool Pubs., San Rafael CA (2012). 及对应中文版《学术研究,你的成功之道》
[2] Ashby, Mike. “How to write a paper.” Engineering Department, University of Cambridge, Version 5 (2000): 38.

————————————精读部分写的好累,先写到这儿,后面来补充——————————–
祭出保存很久的图片,论文中的说法和实际的说法:


高雷:

苦逼博士第四年,怒答。

博士课题大家都讲究“大处着眼,小处着手”,大处着眼就要求你通读文献,对你的领域有清楚的认识,否则别人一句“你这有什么意义”就把你搞死了; 小处着手,就要求你精读文献了,不然都是假大空,你也没法展开。

因此选题阶段,肯定要全方位的了解,精读优秀的综述文献,以一敌百啊。
选定了课题之后,就该精读文献某些具体方法的文献了,找到自己的研究思路了吧,找到具体的可行之路啊。

接触过很多优秀的博士,时间分配应该是50%读文献,50%做实验。阅读量大的惊人,这也许就是别人能想出很多非常crazy idea的原因吧。他山之石,可以攻玉。

题主问这个问题不知道博士阶段开始了没有,难道博士阶段最难的不应该是想出自己真正的创新点在哪么?不然做再多有个毛意义呢。

发表回响