5. 網(wǎng)絡(luò)數(shù)據(jù)可視化(Network Visualisation) 網(wǎng)絡(luò)數(shù)據(jù)可視化軟件在科學技術(shù)分析,特別是科學技術(shù)關(guān)系分析領(lǐng)域,是一種重要的分析工具。在專利分析中,網(wǎng)絡(luò)數(shù)據(jù)可視化有很多用處(本公眾號也發(fā)過相關(guān)介紹圖表介紹 | 力導(dǎo)布局圖),包括: 1. 用于可視化某一特定技術(shù)領(lǐng)域中,申請人和發(fā)明人之間關(guān)聯(lián)關(guān)系。 下圖是合成生物學領(lǐng)域?qū)⒔?000位論文作者的網(wǎng)絡(luò)關(guān)系圖。
WIPO之前就采用了這樣的大型網(wǎng)絡(luò)數(shù)據(jù)分析方法來分析動物遺傳資源領(lǐng)域的專利概況。 下圖梳理了上萬項在文獻中出現(xiàn)了農(nóng)場養(yǎng)殖動物名稱(例如牛、豬、羊等)的專利文獻,從這些文獻中找出各IPC分類號或CPC分類號在同一文獻中出現(xiàn)的情況,并用網(wǎng)絡(luò)圖把這些分類號在同一文獻**存在的關(guān)系展示出來。圖中的每一個節(jié)點表示一個分類號。節(jié)點之間距離越近,說明這些分類號在同一文獻中出現(xiàn)的次數(shù)越多,由此表示這些分類號之間的技術(shù)相似度越高,而這些關(guān)系緊密的分類號所涉及的文獻的技術(shù)關(guān)聯(lián)度也就越高。而距離相隔較遠的節(jié)點代表的文獻技術(shù)關(guān)聯(lián)度則較低,比如烹飪設(shè)備和動物的住房,這些集群中的文獻就可以更快速的被排除。動物遺傳資源專利分析報告的作者采用這一網(wǎng)絡(luò)圖作為數(shù)據(jù)挖掘的工具來尋找目標文獻。(針對這一分析方法,我們在力導(dǎo)布局圖的文章中也做過介紹圖表介紹 | 力導(dǎo)布局圖) 3. 將專利文獻中的關(guān)鍵詞的出現(xiàn)頻率及其與其他關(guān)鍵詞之間的關(guān)系進行網(wǎng)絡(luò)數(shù)據(jù)可視化,能夠作為專利分析的進一步探索與完善。 也是在WIPO動物遺傳資源的案例中,該報告的作者將詞干相同的詞語聚集在一起以了解與動物育種有關(guān)的動物新品種有哪些。
5.1 Gephi Gephi是一種基于Java的開源網(wǎng)絡(luò)可視化生成工具。它可以實現(xiàn)大量數(shù)據(jù)的處理來生成強大的網(wǎng)絡(luò)數(shù)據(jù)可視化(當然處理能力也跟你的電腦性能有關(guān))。
5.2 NodeXL 對于EXCEL死忠粉,NodeXL是Excel的一種插件,能夠生成網(wǎng)絡(luò)圖,而且比較好用。
Cytoscape也是一個網(wǎng)絡(luò)數(shù)據(jù)可視化工具。它原本是設(shè)計用來做生物網(wǎng)絡(luò)可視化和交互的,但是就像許多其他的生物信息學工具一樣,也可以用來做更廣泛的可視化工具。
5.4 Pajek Pajek是最早開源網(wǎng)絡(luò)數(shù)據(jù)可視化工具,但是只有Windows系統(tǒng)可以用。它在文獻計量學中被廣泛應(yīng)用,并且可以處理大量數(shù)據(jù)。作者本人更加推薦Gephi,因為相比而言,Gephi更加靈活。但Pajek在精度上更有優(yōu)勢,更易于重復(fù)實現(xiàn)和文件保存。
5.5 VOS Viewer VOS Viewer由萊頓大學開發(fā),功能與Gephi和Cytoscape相似,但是它具有更多的視覺效果。最新的版本也可以與Gephi和Cytoscape相連。如果想獲得更多的視覺效果,VOS Viewer值得一試。并且它還識別Web of Science和Scopus bibliographic的數(shù)據(jù)。
對于Hive Plots這個工具我們也不是很熟。但是我們對其制作網(wǎng)絡(luò)圖的目的很是贊同,這個目的就是利用網(wǎng)絡(luò)圖使復(fù)雜的數(shù)據(jù)變得清晰,而不是說“哇,快看,我做了一個看起來像意大利粉的網(wǎng)絡(luò)圖”這樣(僅僅看它的外在形式,而不去深究數(shù)據(jù)深意)。因此,我們覺得由加拿大BC腫瘤研究所基因組科學中心的科學家Martin Krzywinski開發(fā)的Hive Plots這個工具值得推薦。
對于其他的網(wǎng)絡(luò)數(shù)據(jù)可視化資源,可以參考FlowingData。也可以看看Visual Complexity和visualising data來獲得些靈感。 6.信息可視化(Infographics) 信息圖在近些年越來越受到關(guān)注,成為信息傳遞的重要方式之一。信息圖的有用之處在于將復(fù)雜的研究成果用簡單直觀的方式展示傳遞。WIPO的專利分析項目就制作了很多信息圖來展示其專利分析成果(這個我們公眾號之前也都介紹過,比如:每日一圖|怎樣做得跟WIPO一樣好(傳染病疫苗專利分析);[每日一圖]怎樣做得跟WIPO一樣好(動物遺傳資源領(lǐng)域?qū)@治觯?/a>;[每日一圖]怎樣做得跟WIPO一樣好(水脫鹽技術(shù)分析);[每日一圖]怎樣做得跟WIPO一樣好(太陽能烹飪技術(shù)分析)等等,大家可以去菜單欄找找)。 由于信息圖表的日益普及,網(wǎng)絡(luò)上也出現(xiàn)了很多在線制作信息圖的免費工具。但是這些工具也有其局限,比如可選擇的圖表數(shù)量有限等等。但是作為一個越來越受到關(guān)注的領(lǐng)域,這些問題以后肯定會解決。下面列出了一些可以在線制作信息圖的工具,有興趣的同學可以去試試。 6.1 Piktochart.com (https:///)
(https://www./create/infographics/)
(https:///pricing)
(https://www./)
(https://www./create/) 還可以去Cool Infographics這個網(wǎng)站尋找其他有用的資源,發(fā)現(xiàn)全球最潮信息圖和最in信息圖制作工具。蘋果的Keynote,Open Office Presentation和Powerpoint也可以用來制作信息圖。 7.地理數(shù)據(jù)可視化(Geographic Mapping) 除了無所不在的谷歌地圖和眾所周知的谷歌地球之外,我們在此再推薦一下別的工具。 7.1 OpenStreetMap 很流行。
一個非常流行的基于JavaScript的開源工具,可用于制作交互式地圖。
在前面已經(jīng)提到過了。Tableau Public使用開源的街景地圖來創(chuàng)建強大的交互地圖。Tableau Public應(yīng)該是你用專利數(shù)據(jù)來制作地圖的最好用的初學者工具。
Tableau Public使用簡單的方法制作有效的交互式地圖成為了可能。 7.4 QGIS QGIS是一個用戶界面友好的桌面地理信息系統(tǒng),可運行在Linux、Unix、Mac OSX和Windows等平臺之上。
GeoNames不是一個地圖制作的程序,GeoNames而是與地理信息有關(guān)的一個數(shù)據(jù)庫、Web 服務(wù)和目標站點。如果你需要大量的地理位置的參考數(shù)據(jù),GeoNames應(yīng)當是你的首選。
一個免費的和高級的數(shù)據(jù)可視化服務(wù)。
OpenLayers3允許你將自己的繪制的圖層加入到OpenStreetMap中。這對于尋求制作自己地圖圖層的人來說特別有用。用時OpenLayers3也具有API(應(yīng)用程序編程接口)和教程。
具有免費版和付費版的不同級別賬號,能夠提供很多好看的可視化實例。
D3是最流行的可視化庫之一,它被很多其他的表格插件所使用,其基于Javascript來處理數(shù)據(jù)和文獻。D3幾乎是很多我們經(jīng)常提及的在線可視化工具背后的庫。
一個擁有很多漂亮圖表實例圖表庫,具有免費的非商業(yè)版本和不同的收費版本。 7.11 Datawrapper 一個可以使用你自己的數(shù)據(jù)來創(chuàng)建圖表和地圖的完全開源的服務(wù)。很多大的新聞媒體都是用這個服務(wù)來制作他們的數(shù)據(jù)新聞圖表,所以Datawrapper的圖表會讓我們看上去有種很熟悉的感覺。這個服務(wù)也是有免費的功能可供使用,同時也有付費賬號可以使用更高級的功能。
plotly是一款在線的科學繪圖、數(shù)據(jù)分析軟件,你可以把他想象成在線版本的Origin,支持桌面以及移動瀏覽器。 8.文本挖掘(Text Mining) 目前有很多文本挖掘的工具,其中有很多也是免費和開源的。以下是我們推薦的部分文本挖掘工具。 8.1 Jigsaw Visual Analytics Jigsaw是一款免費的文本可視分析系統(tǒng),它可以讀入文本數(shù)據(jù),自動提取實體,建立主題模型。此外,它提供了一系列可視化圖表來顯示文本的各種特征。用戶可以在多種視圖之間切換,改變各種視覺特性。但是,Jigsaw不支持對原始數(shù)據(jù)預(yù)處理,也不太支持模型參數(shù)選擇。
基于Java的文本挖掘軟件。
Word trees可以用于對文本的探索,比如權(quán)利要求樹(claims trees)(對于Word Tree或是claims tree在專利分析中的用處,本文沒有多做解釋,小編覺得可能是為了通過分析權(quán)利要求的撰寫方式來幫助理解技術(shù)方案?)。 可以使用Google Word Trees來制作Word trees。Google Word Trees在Google Developers站點上,其提供了使用Javascript和樹生成器(tree creator)生成word tree的指引。
一個免費軟件,其提供了對大量文本內(nèi)容進行分析和文本挖掘。
RStudio中的tm軟件包提供了一系列的文本挖掘工具。這個軟件包的開發(fā)者還寫了一個介紹,可以點此鏈接下載: http://cran./web/packages/tm/vignettes/tm.pdf 在R的相關(guān)博客上也有很多有用的tm軟件包使用方法介紹。 還有一本書手把手教你使用R進行文本挖掘——《Hand-On Data Science with R Text Mining》,作者Graham Williams,出版年份2014年。 另外,還有Fridolin Wild于2104年出版的關(guān)于R中的文本挖掘工具概覽一書《CRAN Task View: Natural Language Processing listing the various packages and their uses》 我們注意到,很多文本挖掘軟件包都是關(guān)注于生成單詞,這對于很多非學術(shù)性目的的研究還算是有用。但是,我們專利分析的文本挖掘主要關(guān)注于提取和分析短語,因此,尋找那些能夠提取和分析短語的工具是很必要的。 8.6 Python and Text Mining 基于Python語言的文本挖掘資源也有很多?,F(xiàn)在越來越多的時候,我們都是將Python和R聯(lián)合使用來進行文本挖掘。下面介紹一些基于Python的資源來幫助你從零開始。 8.6.1 The Natural Language Toolkit (NLTK) The Natural Language Toolkit貌似是現(xiàn)在最牛的軟件包,幾乎能夠滿足所有的主要需求。其配到的教科書《Natural Language Processing with Python》也值得一讀。 有關(guān)的NLTK的零基礎(chǔ)入門教程,可以點此鏈接下載: http:///dive-into-nltk-part-i-getting-started-with-nltk 8.6.2 The Python Textmining Package 這個軟件比The Natural Language Toolkit (NLTK)簡單一點,不過也能滿足你的大部分需求。
要看了解更多的文本挖掘工具,可以看這篇文章“top 20 free text mining software tools”(相關(guān)鏈接:http://www./top-free-software-for-text-analysis-text-mining-text-analytics/) 要了解更多關(guān)于免費文本挖掘的工具,可以去瀏覽語言語義學的相關(guān)網(wǎng)站,比如下面三個鏈接:
一些分析工具,比如Search Technology公司的VantagePoint是專門為分析處理專利數(shù)據(jù)而設(shè)計開發(fā)的,它有一個資助版本對于vpinstitute的學生免費。(相關(guān)鏈接:https://www./) 當然也有很多數(shù)據(jù)分析的軟件可以用于專利數(shù)據(jù)的分析,例如:
小結(jié) 在這篇文章中,我們介紹了一些主要的可用于專利分析的免費和開源工具。這些工具并非專門用于專利分析,但是其功能可以滿足專利分析的需求。專利數(shù)據(jù)在經(jīng)過了數(shù)據(jù)清洗、專利申請人及發(fā)明人名稱的歸一化以及技術(shù)領(lǐng)域的標引之后,非常適合數(shù)據(jù)可視化和網(wǎng)絡(luò)數(shù)據(jù)的展示。專利文獻著錄項目中包含了國家、申請人地址、代理機構(gòu)地址等地理信息,這也就意味著專利數(shù)據(jù)也可以用地圖來展示。 在實踐中,找到一組對于你的專利分析工作最適合的工具以及專利分析的方法都是很重要的。 很多時候,你還很有可能會將付費軟件和免費工具結(jié)合起來使用。比如最近我們做的WIPO關(guān)于動物遺傳資源的專利分析報告(本報告之前我們也介紹過,相關(guān)鏈接:[每日一圖]怎樣做得跟WIPO一樣好(動物遺傳資源領(lǐng)域?qū)@治觯?/a>)就使用了很多工具,包括使用PATSTAT來獲取數(shù)據(jù),用Thomson Innovation and VantagePoint來進行數(shù)據(jù)驗證,Tableau和Gephi做數(shù)據(jù)可視化。 總而言之,雖然使用這些免費的可視化工具能夠基本滿足所有專利分析的需求,但是將免費工具和收費軟件結(jié)合起來使用,會提高你的分析效率。因此,了解這些工具的功能和你的分析需求十分必要。 所以,如果我們第一次選擇使用開源的軟件,首先看看下面的問題列表,搞清楚這些問題了,你的開源工具也就很好選擇了。這個清單也許并不全面,僅僅是為了幫助你在選擇開源工具上頭腦更加清晰。 1. 用這個工具的靠譜嗎?也就是說,你清楚這個開發(fā)工具的目的是什么嗎?如果答案是是,那么就是個好現(xiàn)象,你可以嘗試使用這個工具。如果答案是否定的,那么這個工具對你的需求來說可能還是太特殊了,或者這個工具的開發(fā)者沒有把工具解釋的很清楚,那么這就不是個好現(xiàn)象,此時,選擇這個工具要慎重。 2. 你了解編寫這個工具的語言嗎?如果你不懂這個語言的話,這是否會成為你使用這個工具的障礙?如果讓一個人從零開始學**這個語言,你覺得這個成本是不是值得?是否有免費的或是能夠承受的課程可供學**? 3. 這個工具的源代碼是否是開源的,使用這個工具的源代碼在其基礎(chǔ)上的修改會否產(chǎn)生知識產(chǎn)權(quán)的問題? 4. 數(shù)據(jù)的安全性問題。如果你將專利分析的數(shù)據(jù)上傳到一個基于網(wǎng)站的服務(wù)器上,誰擁有數(shù)據(jù)?誰能在什么樣的情況下獲取到這個數(shù)據(jù)?如果這些數(shù)據(jù)與商業(yè)相關(guān),那么你就需要考慮這個問題。 5. 免費到底意味著什么?很多工具或軟件的免費版本往往意味著還有收費版本。在很多工具中,免費版本往往只能處理、保存或輸出有限量的數(shù)據(jù)。不過有些工具的免費版本是沒有這些限制的。但是,使用這些工具的技能的培養(yǎng)和學**卻是要花費大量的時間和費用的。 6. 還有哪些別的公司(或機構(gòu))在使用這個工具?如果有別的公司或機構(gòu)都在使用這個工具,這也能反映出這個工具應(yīng)該是比較靠譜的,而且我們還能從他們的分析報告中找來使用這個工具作分析的實例。 7. 現(xiàn)有技術(shù)中有沒有很多資料幫助我們學些這種工具的使用方法?遇到疑難問題的時候是不是可以很方便的找到人幫忙解決?這是一個鑒別這一工具是否開發(fā)成熟的指標,比如如果這個工具的使用者有一個論壇或聊天群的話,就比較好。 8. 這個工具的使用者論壇和聊天群的活躍程度,高手們是否經(jīng)常創(chuàng)建一些模型或是寫一些教程分享給大家。 …… |
|
來自: 昵稱39594769 > 《專利》