博士應該採取什麼策略讀文獻?

問題描述:看到兩種相反的觀點: 1、盡可能多讀並整理,全方位了解問題的背景和來龍去脈。 2、盡可能少讀,而且每篇用很短的時間(20 min),只需要提取與課題直接相關的資訊即可,然後直接開始幹活,干不動再找。期間讀盡可能少的文獻了解進展即可(類似於這個:Philip Guo - Opportunistic Paper Reading)。 想知道各位都是怎麼做的。
, , , ,
高翔:

首先要誇獎和鼓勵提問者,問得好!這個邀請也是邀到我心坎里了,謝謝!

我將以經濟和金融背景來組織一個適合入門者的回答。

大家可能會覺到奇怪,但我認為這兩種看似相反的觀點其實都是正確的,只不過因為一個是長期策略,一個是短期策略,所以乍看是沖突的。細想想的話,我們在閱讀文獻時所採取的策略應當是綜合的(短期為主)、非線性的(跳躍+反覆)和相機而變的。

題主所說的第一種策略(即盡可能多讀多整理,全方位了解問題的背景和來龍去脈)是一種以長期目標為導向的策略,而題主所說的第二種策略(即盡可能少讀,讀簡介即可,只從文章里提取自己關心的資訊)則是一種以短期目標為導向的策略

所謂長期目標是指:了解你身處的領域中需要解決的最根大學部學問題(比如在國際貿易學中,最核心的問題就是what do we know about firms that trade),畫出文獻樹,並跟蹤該領域中活躍學者的實時動態。所謂短期目標是指:找出自己當下這篇論文擬寫的題目和創新點、把初稿寫出來,或者完成當前所承擔科研項目的結項報告。

長期目標怎麼才能達成?答案是通過完成一個又一個的短期目標。所以,我的第一個觀點就是:應該日常性地採取第二種策略來讀文獻,然後心中飽含著我最終還是要達成第一種策略的念頭。要在這個行當里持久地混下去,有時間的話,前面挖的坑遲早都是要填上的。

我的第二個觀點是:有了讀文獻的策略,你還必須要目的性很強地去讀,帶著你的idea去讀。Idea就是指自己的研究問題以及自己對該問題預想出來與眾不同的解答。別人一聽你的答案,一拍大腿,我tmd怎麼就沒想到,真是情理之中,預料之外啊。這里與其說是讀文獻,不如說是在文獻中去找你所需要的東西(自己模型的來源,自己假設的支撐證據,fancy的計量方法,還是數據的來源等),否則讀完就完了,轉頭就忘,毫無幫助。

結合上述兩個觀點,你該做的就是:第一步、找到自己感興趣的領域;第二步、看綜述性的論文找靈感;第三步、形成自己的idea並大致想好怎麼論證你的idea;第四步、把idea列印出來,掛在書桌前面的牆上,按照上述短期性策略去讀幾十篇最相關的文獻,找論證的方法和其他有用的東西。

接下來,我就結合自己在經濟金融學領域(其他領域可能情況有所不同)撰寫國際期刊論文(Fan and Gao, 2017)的經歷,首先談談怎麼形成自己的idea,然後再談談具體怎麼實施這個讀文獻的短期策略。不過,這僅僅是科研的第一個階段而已。在完成第一階段以後,我們還要帶著自己的idea去建理論模型、去收集處理數據、去做實證檢驗、去寫代碼,去做模擬,去寫出來、去到處講、去投稿、去反覆改、去最終發表並啟動下一個idea,等你在這個領域完成了不少idea以後,讀文獻的長期策略也就自然而然地體現於其中了。

怎麼形成自己的idea?

這個其實和讀文獻是相輔相成的,如果讀文獻廣闊到一定地步是不會煩惱這個問題,如果什麼文獻都還沒讀,或者只讀了幾篇,怎麼辦?我先講幾個不該是我們這種科研新手產生idea的來源。

第一個,能不能是看著新聞、讀著小說時的靈光一現?不能夠或者很難保證這樣的idea能夠得到主流的認可。

第二個,能不能是偶爾獲取到了一小組新數據?不能夠,就像你撿了一個鼠標墊,然後來問問配齊電腦還需要什麼?

第三個,能不能是對現有文獻或一篇論文的評論?不太好,將來你的文章是要給這些被評論的人來審的,大家都不喜歡別人專門寫一篇論文來評論自己的工作,想想詩人和作曲家是多麼討厭詩評人和曲評人。

第四個,能不能接著某篇論文結論部分的、作者給未來科研人的建議去寫?可能下場會很慘,你想想原作者自己怎麼不接著做哪,寫出來留給別人做?

最好的來源應當是:在了解某個文獻整體情況的基礎上,看看缺了哪塊兒,哪裡需要補上。所以我讓大家去看看綜述性的論文,對文獻樹有個大致的了解,帶著自己是個職業科研人的認知,去找找看這個文獻樹里是不是各個方向都有了理論,但缺乏實證?還是多個理論模型有沖突,不知道哪個理論在哪種情況下是符合當前狀況的?還是實證一大堆,卻沒有理論模型?還是這個領域的方法可以借鏡到其他領域已經不錯的方法?總之,要想想自己的idea怎麼fit到某個文獻裡面去。

我們先要提出一個問題,這個問題得有意思,你自己要很感興趣(要是一開始就是為了完成任務隨便提出來一個,我敢保證以後你看到自己這篇論文就要吐,因為你要修改成百上千遍,就像找男女朋友要找個順眼的,先不管其他,以後相處幾十年,順眼都不順眼,就真沒法堅持搭夥過日子了),大眾也都很感興趣,想知道答案的問題。而且這個問題吧,你怎麼去回答好像都有一定道理,正著說反著說都可以,欸,這就是一個好問題。

接下來你要做的就是把這個問題變成一個學術問題,即保證自己能在兩句話之內把這個問題清楚地描述出來。這兩句話不應當是:甲這么做,乙那麼做,我來小小改一改;也不應當是:我分析了某個有名的數據庫(比如上市企業高管的薪酬數據),發現了許多有意思的結果。這里舉個例子什麼才是一個正經的學術問題。Fama and French(1992)在他們的高引論文里的簡介部分,是這么總結他們的研究問題的:

Two easily measured variables, size and book-to-market equity, combine to capture the cross-sectional variation in average stock returns associated with market beta, size, leverage, book-to-to-market equity, and earnings-price ratios.

翻譯一下,兩個很容易獲取到的指標,公司規模和股權的市值與賬面值之比,和其他一些指標結合起來就可以解釋為什麼不同的公司發行的股票會有不同的投資回報率。這個問題是很有意思的,因為找出決定股價差異的因素對於基金經理是非常重要的,有人就寫了一篇文章,發現用過去十幾年裡學術界找出來的許多個股價決定因素去選股,發現選出來的股票不再有超額收益了。這說明,業界已經把這些idea應用到投資過程中了,所以潛在的投機機會就消失了。

把你的問題也這么寫出來,拿出給你炒股多年的老爸老媽和親朋好友們講講,可能需要稍微對專業名詞解釋一下,如果他們能聽懂了,而且表示想知道答案,這一步就算是成功了。

有了學術問題,你還得繼續想你對這個問題的解答大概會採取一個什麼思路,找到一個別人沒有提出過的問題是比較困難的,但是想出一個新穎的解答還是可能性很高的。而且未必現有的解答做得足夠細致,你就可以超越他,或者從另一個角度進行補充,這和Aorqu的玩法一模一樣。如果你是一個有基本功底的研究者,目前的工作(即找出來問題和想出來問題的新穎解答思路)基本就已經決定了你這篇文章未來可發表雜志的等級,做得再細致或者做得較毛糙,則決定了這篇文章所發表的期刊是屬於該等級中的佼佼者,還是該等級裡面快降級的。

你也許會發現,解答的思路已經快被人家想完了,我怎麼辦?另闢蹊徑地去思考,比如逆向思維、發散思維、遞歸思想等。這里舉一個投行面試中關於逆向思維的數量問題做例子。

想像一個由10乘10乘10個小立方體組成的大立方體浮在空中,就像魔方一樣,不過長寬高都是十個小方格,這時候颳風下雨,整個前後左右外立面上的小方格都剝落掉在地上了,現在問你地上掉了多少個小立方體。如果正向去想答案就很煩,因為出現在棱處的小方格兩個面會重複計算,出現在頂角的小方格三個面都會重複計算。但如果反著去想答案就很簡單,原來有10的3次方個小立方體,現在空中還剩8的3次方個小立方體。8的3次方就是2的9次方,學計算機的同學肯定知道:2的10次方是1024,那麼2的9次方就是512,所以掉在地上的小立方體有1000-512=488個。思路對了,三秒出答案。

同理,你在想學術問題答案的時候也應當採取上述多種維度的思考路徑。

讀文獻的短期策略到底應該怎樣實施?

實施短期策略其實很簡單,精讀一篇論文的abstract摘要部分和introduction簡介部分即可。題主說用短期策略去讀一篇論文,二十分鐘就可以完成是有些誇張了,除非你對這個文獻非常熟悉。在不熟悉的情況下,由於精讀摘要和簡介要求完全理解一篇論文的宏觀思路,所以可能需要反覆讀以及查閱其他資料,所以我覺得大致用時在幾個小時是比較合理的。比如,我是這么讀Hummels and Klenow(2005)年的一篇文章的,這篇文章研究的問題是:

Large economies export more in absolute terms than do small economies, we use data on shipments by 126 exporting countries to 59 imports countries in 5,000 product categories to answer the question: how?

翻譯過來就是:有的理論說大國的國際貿易的數額增長是因為出口一種產品的數量多,有的理論說是因為出口商品的品種多,還有理論說因為出口商品的質量高所以定價高,到底誰說得對,我們來用詳實的數據樣本驗證看看。

我精讀了這篇論文的摘要,發現第一次讀,看不太懂。這有可能是因為我不懂基礎概念和理論的問題,有可能是我被英語句式誤導了。怎麼辦?沒有捷徑,我讀了十幾遍,反正也就十幾句話,每個句子的主語、謂語、賓語,每個不認識的術語都徹底搞清楚。也可以先讀讀introduction部分,再返回來讀abstract,也許有些疑惑就解開了。當我發現我已經能夠用自己的幾句話把作者研究的問題、使用的方法和得出的結論都總結出來之時,這篇論文的abstract就算是讀懂了。

接下來繼續精讀簡介部分,我把Introduction的每一段,反正也就那麼十幾段,按照讀abstract的方式來一段一段地讀,比如我就做了這樣的讀書筆記,把每一段的核心思想講什麼都總結下來(如下圖)。這篇論文的第八段是文獻綜述,我需要仔細瞧瞧這一段裡面有沒有我比較感興趣的其他論文,如果有,那麼就翻到參考文獻部分把這篇文章也下載下來,看看概要。

你要知道,作者在寫文章時的順序是這樣的,先草擬下來摘要和簡介部分,然後把主要精力放在正文的寫作上,最後再花很長的時間重寫Introduction,有時候還需要請大牛來寫introduction,因此introduction就是正文的精華,讀懂了這篇文章如果不需要知道細節就可以算是看過了,abstract又是introduction的精華,所以這兩部分是最最重要的。

好了,讀完了,關掉文檔pdf,別忘了給這個PDF文件改個名字,原來叫Final AER Version.PDF,我把它改成作者名加年份加發表期刊加主要idea加主要方法加我認為的亮點(當然有些地方就用縮寫即可)。例如,Hummel & Klenow 2005 AER large country trade more testing for competing theories』 how.PDF。原來是放在桌面的,我現在放到Research文件夾下Trade,然後Traditional Theory,然後Empirics,哇,還有好多文章沒讀正文,沒關系,慢慢來吧,至少把長期策略的文獻樹用文件夾嵌套文件夾的方式慢慢畫出來了。

好累,看了半天的論文,我們現在去看看兩位作者的主頁,他們現在都做什麼最新的研究項目,千萬別讓自己落後了,要知道發表出來的文章基本上是至少五年前的東西了,工作論文也是兩三年前的東西了,work in progress可能還有些新鮮的觀點,但是大部分是沒有正文的,只能從題目裡面猜猜這些大牛的idea;要知道他們時下正在做什麼的話,還是去面談或者認識他們吧。

最後,我用一張圖把我建議的讀文獻步驟來總結一下,供大家參考

到這里,讀文獻這一部分的介紹就完畢了,別忘了我開頭說過的,這只是科研的第一個階段。

這里做一個小小的預告,以後如果有合適的問題,我會再接著介紹科研論文寫作接下來的幾個階段,即怎麼去建立理論模型(就是把你idea裡面對問題的解答用數學語言或其他規范的語言講出來),怎麼去搜集處理數據(結合我建立中國金融機構操作風險數據庫的經驗),怎麼去寫作,怎麼和大牛們建立聯系,怎麼選擇期刊來投稿等等,歡迎感興趣的同學們關注我,希望我的答案能給學術道路上的你一些幫助!

參考文獻

David Hummels and Peter Klenow, 2005. The Variety and Quality of a Nation』s Exports, American Economic Review, Vol. 95(3), pp.704-723. 原文鏈接

Haichao Fan and Xiang Gao, 2017. Domestic Creditor Rights and External Private Debt, The Economic Journal, Forthcoming. 原文鏈接 中文解讀

Eugenue Fama and Kenneth French, 1992. The Cross-Section of Expected Stock Returns, The Journal of Finance, Vol. 47(2), pp.427-465. 原文鏈接


張悅:

我說的可能不是策略,但可能比很多優秀的策略更能提高效率

很簡單:

1.斷掉外網
2.把手機放到一個自己摸不著的地方
3.遠離零食

做到以上三條,百分之九十的人閱讀速度將提高一倍以上。

我通常是不帶手機列印好文獻去圖書館,一支筆一個本一杯水足矣。


BarS:

說一下我個人的習慣,盡管是一個學渣,但是也有自己的經驗的。背景補充:機械學科,系統動力學及其控制方向:
1.量的積累。博一時候校內另一巨牛學院的教授對他的博士們說過一句話:每天堅持讀三篇論文,三年之後必成大器。當時第一感覺是一天讀三篇這么少,有點不以為然,但當我自己真的來每天讀三篇時,覺得要堅持下來真的不簡單,因為太多不懂的地方要去外延。同一個機械繫統,光控制方法就多如牛毛,比如PID、模糊、滑膜、遺傳、神經網路等等,每一種方法想能夠讀懂能應用都需要花費大量時間。所以,剛開始一天都不一定能讀滿三篇。讀文章我會將讀過的文章覺得推演過程詳細的,做一個標記,比如將文件名(網上下載的文獻默認論文題目為文件名)前面我會標記「重點-XX方法推導」等記號,以後以後看題名即可知道內容。這樣堅持讀論文半年後,對所研究的領域基本了解了,基本的一些方法算例或自己建模或網上下載,都做過一定嘗試。因此,讀論文速度也快了。基本半年的時候,讀論文會覺得有種千篇一律的感覺,讀得也快了,如果沒有亮眼的論文,半小時就可以翻3-4篇。
2.精讀。在積累量的時候,我有提到過做標記,一般情況下我會照著值得精讀的文章中的模型與方法復現作者的結果,盡管大多數時候是復現不了的(懂得同仁是不是腹黑的笑了)但是通過這個過程還是能夠加深理解,並且積累模型數據,為自己做論文做積累。所以個人理解精讀就是一個復現結果的過程。不然你永遠不知道作者的意圖。
3.如何利用不同級別的論文。剛入行時只覺得行業頂級SCI最牛逼最值得讀,普通SCI能看,好的EI可掃一眼,除此之外全是垃圾。但是現在回想起來真是2羊2simple。我現在的觀點是:所以論文都是有價值的,只時看你如何去利用它的價值點。介紹一下個人感受:掌握業界最新動態最新方法必須看頂級SCI,但是這些論文不一定能指導你復現結果,因為大多數都是極為繁瑣的數學推演,比較晦澀;所以二流的SCI以及一流EI論文的價值就來了,這些文章的作者往往是頂級期刊的搬運工,然後做了一個具體化的工作,對於結果復現有幫助,同時結合一些同課題的博士學位論文,基本能夠讓我做一些復現的工作。如果在結果復現時對於軟體使用有不理解,那麼碩士學位論文以及一些非核心期刊論文的價值就來了,因為這類論文中不乏將操作步驟一一列舉的文章。同時,對於拘提機械繫統的力學、電、液方面的推導其實好的碩士論文會推演的更細致,畢竟博士論文的重點不在這一塊往往一帶而過。如果對系統的機械結構不太了解手邊沒有實物可看,那麼那些大量存在的非核心期刊(俗稱垃圾期刊)價值也有了,這類論文往往有大量的結構方案介紹,故障處理等內容。
以上時個人一些方法希望可以給到大家一點提示。現在上班了,還是會定期保持閱讀論文,似乎已經成了一種生活習慣。給自己定的目標是,不管工作多忙,至少每年發表一篇論文。


Chen:

一般來講,閱讀文獻數量決定了對所在領域的現狀的了解,問題的認識和未來趨勢的預測。因此,個人認為,盡可能少讀容易抓不住領域的重點問題和已有工作撞車難以產生新的idea。而且從個人經驗來講,讀10篇文章和100篇文章的感覺是完全不一樣的。如果比作航海,讀10篇時,燈塔依然朦朧,不時觸到暗礁,讀到100篇時,感覺萌萌噠。問題的核心在於那些文章需要精讀那些只需要略讀,精度和略讀的比例佔多少

本答案針對如何劃分精讀略讀,以及如何進行精讀和略讀,主要是總結一下自己近期的一些經驗。

0. 首先是文獻的獲取:
搜索引擎/數據庫關鍵詞搜索:比如Google scholar,IEEExplore: http://ieeexplore.ieee.org/,ACM ACM Digital Library等,通過自己研究方向找到相關文獻。

其次是閱讀文獻中的引用文章,閱讀文獻時,參考文獻中經常會出現熟悉的面孔,這些文章一般就是本領域比較重要的文章了。

@ Pengyao Jiang 介紹了自己通過google scholar的Alerts進行推送,google一般會將最近幾天內相關關鍵詞的文獻推送到郵箱,這些文獻都是領域內的最新進展。
ResearchGate也是一個不錯的地方,關注一些大牛,會經常得到他們最新工作。
另外,AMiner – Open Science Platform 也是一個不錯的地方,可以找到所在領域的大牛,關注他們的工作。

1.如何劃分文獻精讀還是略讀:

  • 個人的動機和目的:

略讀:如果目的只是題主所說的「全方位了解問題的背景和來龍去脈」,那麼多讀讀introduction就可以達到目的,或者找一些survey and tutorial,magazine來讀,比如ACM Computing Surveys, IEEE communications survey and tutorial,和IEEE communication magazine。
甚至即使要弄清楚文章所假設的系統框架、場景,通過假設避免了那些條件/變量的影響,提出的核心問題,解決方法的優劣,那麼略讀也可以達到目的,這些作者都會在文章中交代,讀讀system model, simulation/experiments 即可。
精讀:如果想學習文獻的提出的新工具,新方法;理解新的架構和原來的差別,比如CCN (content centric network)和IP-based 網路的差別;在粗度的基礎上產生了很多的為什麼,並且覺得十分重要。那麼這個時候,就要去關注主要內容中的重點部分,就得精讀文章了。

  • 文章相關性、質量和影響力:

相關性不用多說,主要解決本領域問題的相關性強,借用本領域場景,或者交叉學科少量涉及的相關性若。
文章質量和影響力:
從side information可以看出一些,比如會議/期刊級別,作者個人成就,作者在本領域的貢獻和持續研究的時間長短。例如在無線通信領域的IEEE ICC,Globecom等會議,IEEE Transaction on Wireless Communication等等一般質量都可以保障,寫過無線通信基礎的幾位大牛Standford的Goldsmith和David Tse,USC的Molisch等。

  • 根據個人的目的與文章的相關性、質量和影響力,哪些文章需要精讀的自然是很容易分辨的了。

2.略讀:
審文章,寫文章,和讀文章是互相促進的,要略讀首先要抓住文章的結構和要點。
一般文章結構如下圖[1]:

首先看文章審稿是怎麼樣的過程[1]:
首先找到In this paper, 作者到底what does he/she/it 弄啥嘞,然後introduction找到具體的做法介紹,接著在主要內容中找到相應的支撐,最後看實驗和模擬是否一致,確定是否接受。

那麼略讀文章的思路也是一致的,核心就是抓住審稿人想要抓住的重點:一句話說出這篇文章的貢獻,以及和現有文獻的區別。

再看寫文章時的一般規則[1]
Abstract:一句話說出為何要做,怎麼做的,結果如何,結論怎樣。
Introduction:指路標,首先告訴你研究的領域在哪個國家,其次是哪個城市,最後是落腳點的位置,以及這個落腳點為何重要。
System model:場景,以及一些基本假設。
以上,即可達到略讀的目標,略讀完後,應該可以向別人講出一個完整的故事,描述出完整的場景,能夠起到對相關領域了解,以及進展現狀的目的,同時也能激發自己產生很多為什麼?至於要進一步弄懂這些為什麼,進一步意識到還未解決的為什麼,凝練新的idea,一方面需要自己的思考,另一方面則精讀文章也很重要。

3.進一步精讀:

  • 場景:與一般文獻的場景有何不同,為何如此設置,找出原因,以及是否實際,作者怎樣解釋的。
  • 假設:假設條件有哪些精妙之處,實際系統是否能夠如此假設,假設的條件是否成立。
  • 性能評估

評估的指標,評估的場景,基本的假設,改變任何一個,會發生什麼。

  • 系統設計

優化問題:問題難度,P,NP,如何解決,解決的技巧,對性能的影響,復雜度。
非優化問題:演算法的設計思路,關鍵步驟的選擇,其他的可能性。

新的架構:扁平化設計(3G->4G演進),控制/數據分離(SDN的設計),優劣特點,對性能的影響,何種評價指標。
新的方法:利用的場景的特性是什麼,比如無線通信中的MIMO(Multiple-inut-multiple-output)是信道的衰落,IA(Interference Alignment)是干擾具有結構性的特點。

[1] Ling, C. X., and Q. Yang. “Crafting your research future.” Morgan & Claypool Pubs., San Rafael CA (2012). 及對應中文版《學術研究,你的成功之道》
[2] Ashby, Mike. “How to write a paper.” Engineering Department, University of Cambridge, Version 5 (2000): 38.

————————————精讀部分寫的好累,先寫到這兒,後面來補充——————————–
祭出保存很久的圖片,論文中的說法和實際的說法:


高雷:

苦逼博士第四年,怒答。

博士課題大家都講究「大處著眼,小處著手」,大處著眼就要求你通讀文獻,對你的領域有清楚的認識,否則別人一句「你這有什麼意義」就把你搞死了; 小處著手,就要求你精讀文獻了,不然都是假大空,你也沒法展開。

因此選題階段,肯定要全方位的了解,精讀優秀的綜述文獻,以一敵百啊。
選定了課題之後,就該精讀文獻某些具體方法的文獻了,找到自己的研究思路了吧,找到具體的可行之路啊。

接觸過很多優秀的博士,時間分配應該是50%讀文獻,50%做實驗。閱讀量大的驚人,這也許就是別人能想出很多非常crazy idea的原因吧。他山之石,可以攻玉。

題主問這個問題不知道博士階段開始了沒有,難道博士階段最難的不應該是想出自己真正的創新點在哪么?不然做再多有個毛意義呢。

發表迴響