1
雷鋒網(wǎng) AI 研習(xí)社按,日前,KDnuggets 上的一篇文章總結(jié)了七十多個免費(fèi)的數(shù)據(jù)集,內(nèi)容涉及到政府、金融、衛(wèi)生、新聞傳媒等各個方面,除了這些數(shù)據(jù),文中還提供數(shù)據(jù)提取地址。雷鋒網(wǎng) AI 研習(xí)社將文章編譯整理如下。
進(jìn)行良好的數(shù)據(jù)可視化的前提是數(shù)據(jù)的質(zhì)量較高并且比較干凈。大多數(shù)人認(rèn)為收集大量數(shù)據(jù)是一件很困難的事情,事實并非如此。網(wǎng)上有成千上萬的免費(fèi)數(shù)據(jù)集,我們可以利用這些數(shù)據(jù)進(jìn)行分析和可視化。
下面是 70 多個免費(fèi)的數(shù)據(jù)集,涉及到政府、犯罪、衛(wèi)生、金融和經(jīng)濟(jì)數(shù)據(jù)、市場和社交媒體、新聞傳媒、房地產(chǎn)、公司名錄和評價等各個方面。
有了這些數(shù)據(jù),希望能節(jié)省大家的時間和精力,避免在網(wǎng)上進(jìn)行盲目的搜索。
政府方面
1、Data.gov(https://data.gov/):美國政府提供的數(shù)據(jù)集門戶網(wǎng)站,大家可以通過這個網(wǎng)站直達(dá)從氣候到犯罪等各種奇妙的數(shù)據(jù)集。
2、Data.gov.uk(https://data.gov.uk/):來自英國所有中央機(jī)關(guān)和部分公共部門及地方政府的數(shù)據(jù)集。這個門戶網(wǎng)站涉及商業(yè)和經(jīng)濟(jì)、犯罪與正義、國防、教育、環(huán)境、政府、衛(wèi)生、社會和交通等方面各種類別的信息。
3、US. Census Bureau(https://www.census.gov/data.html):美國政府針對國民生活的統(tǒng)計數(shù)據(jù),包括人口、經(jīng)濟(jì)、教育、地理信息等。
4、The CIA World Factbook(https://www.cia.gov/library/publications/the-world-factbook/):各國狀況。重點(diǎn)關(guān)注歷史、政府、人口、經(jīng)濟(jì)、能源、地理、通信、交通、軍事和跨國問題(267 個國家)。
5、Socrata(https://socrata.com/):Socrata 是一家任務(wù)驅(qū)動型軟件公司。在該網(wǎng)站上,可以用內(nèi)置的可視化工具來搜索政府?dāng)?shù)據(jù)。該公司提供數(shù)據(jù)服務(wù),目前已經(jīng)有超過 1200 家政府機(jī)構(gòu)與其達(dá)成合作。
6、European Union Open Data Portal(https://open-data.europa.eu/en/data/):歐盟各個機(jī)構(gòu)的數(shù)據(jù)正在不斷增長中,該網(wǎng)站是獲取這些數(shù)據(jù)的唯一途徑。里面的數(shù)據(jù)包括地理、地緣政治和金融數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、選舉結(jié)果、法律行為,還有與犯罪、衛(wèi)生、環(huán)境、交通和科學(xué)研究相關(guān)的數(shù)據(jù)。
大家可以在不同的數(shù)據(jù)庫和報告中重利用這些數(shù)據(jù)。此外,歐盟的各個機(jī)構(gòu)和組織也提供了多種數(shù)字格式。該網(wǎng)站提供標(biāo)準(zhǔn)化的目錄、一些重利用數(shù)據(jù)的 app 和 web 工具、SPARQL 后端查詢編輯器和 rest API 接入,此外也有使用該站點(diǎn)的相關(guān)技巧。
7、Canada Open Data(https://www.data.gc.ca/):這是一個試點(diǎn)項目,包含許多政府和地理空間數(shù)據(jù)集。利用這一數(shù)據(jù)集,可以探索加拿大政府在推動創(chuàng)新、創(chuàng)造更多經(jīng)濟(jì)機(jī)會方面是如何做的。比如如何創(chuàng)造出高度透明的社會,怎么去增加公民的參與積極性和責(zé)任心。
8、Datacatalogs.org(https://opengovernmentdata.org/):提供美國、歐盟、加拿大、CKAN 數(shù)據(jù)平臺等各個地方的開放政府?dāng)?shù)據(jù)。
9、U.S. National Center for Education Statistics(https://nces.ed.gov/):美國國家教育統(tǒng)計中心(NCES),負(fù)責(zé)收集和分析美國與教育相關(guān)的數(shù)據(jù)。
10、UK Data Service(https://www.ukdataservice.ac.uk/):包括英國政府發(fā)起的調(diào)查、跨國調(diào)查、縱向研究、英國人口普查數(shù)據(jù)、國際貿(mào)易額、商業(yè)數(shù)據(jù)和定性數(shù)據(jù)。
犯罪數(shù)據(jù)
11、Uniform Crime Reporting(https://ucr.fbi.gov/):執(zhí)法人員、學(xué)生、研究人員、媒體和公眾一般都會在這里尋找美國的相關(guān)犯罪信息。
12、FBI Crime Statistics(https://www.fbi.gov/stats-services/crimestats):一些關(guān)于犯罪的統(tǒng)計報告和出版物,詳細(xì)描述了犯罪行為,并從地區(qū)和國家級層面概述了人們面臨犯罪威脅的趨勢。
13、Bureau of Justice Statistics(https://www.bjs.gov/index.cfm?ty=dca):這里有關(guān)于美國司法系統(tǒng)的一切信息,包括逮捕引起的死亡、監(jiān)獄人口普查、DNA 犯罪實驗室的全國調(diào)查、執(zhí)法部門的調(diào)查等等。
14、National Sex Offender Search(https://www.nsopw.gov/en):這是一份前所未有的公共安全資源,在這里可以看到美國的性犯罪數(shù)據(jù)。這里也有司法局提供的最新信息。
衛(wèi)生數(shù)據(jù)
15、U.S. Food & Drug Administration(https://www.fda.gov/Drugs/InformationOnDrugs/ucm079750.htm):這里提供美國食品藥品監(jiān)督管理局(FDA)數(shù)據(jù)庫的壓縮數(shù)據(jù)文件,F(xiàn)DA 每天都會更新他們的數(shù)據(jù)集,這個壓縮數(shù)據(jù)文件會在每周二更新。
16、UNICEF(https://www.unicef.org/statistics/):UNICEF(聯(lián)合國兒童基金會)會收集世界各地兒童和婦女的相關(guān)數(shù)據(jù)。這些數(shù)據(jù)中包括來自于家庭調(diào)查等可靠信源的具有代表性的數(shù)據(jù)。
17、World Health Organisation(https://www.who.int/en/):150 多個國家的營養(yǎng)、疾病和衛(wèi)生統(tǒng)計數(shù)據(jù)。
18、Healthdata.gov(https://www.healthdata.gov/):涵蓋美國 125 年來的衛(wèi)生保健數(shù)據(jù),包括醫(yī)療保險數(shù)據(jù)、傳染病和人口統(tǒng)計數(shù)據(jù)。
19、NHS Health and Social Care Information Centre(https://www.hscic.gov.uk/home):英國國家衛(wèi)生服務(wù)部門(NHS)提供的衛(wèi)生數(shù)據(jù)。NHS 編制了 260 多份正式的國家統(tǒng)計出版物。這里有長期以來的醫(yī)院統(tǒng)計數(shù)據(jù),這些數(shù)據(jù)可以幫助當(dāng)?shù)貨Q策者提高前線醫(yī)療質(zhì)量和效率。
金融和經(jīng)濟(jì)數(shù)據(jù):
20、World Bank Open Data(https://data.worldbank.org/):涵蓋世界各地的金融、服務(wù)指標(biāo)等數(shù)據(jù)。
21、IMF Economic Data(https://www.imf.org/en/Data):這是一個非常有用的信息源,包括全球金融穩(wěn)定報告、地區(qū)經(jīng)濟(jì)報告、國際金融統(tǒng)計數(shù)據(jù)、匯率、貿(mào)易方向等。
22、UN Comtrade Database(https://comtrade.un.org/):用戶可以以可視化的形式免費(fèi)訪問詳細(xì)的全球貿(mào)易數(shù)據(jù)。它是國際貿(mào)易組織統(tǒng)計數(shù)據(jù)和相關(guān)分析表的官方資源庫。大家可以通過 API 訪問上面的所有數(shù)據(jù)。
23、Global Financial Data(https://www.globalfinancialdata.com/):涵蓋超過 6 萬家公司的數(shù)據(jù),時間跨度為 300 年左右,為分析全球經(jīng)濟(jì)的變化提供了獨(dú)特的來源。
24、Google Finance(https://finance.google.com/finance):包括實時股票報價和圖表、財經(jīng)新聞、外匯匯率、投資組合等。
25、Google Public Data Explorer(https://www.google.com/publicdata/directory):提供來自世界銀行、OECD、歐盟統(tǒng)計局和丹佛大學(xué)等一系列國際組織和學(xué)術(shù)機(jī)構(gòu)的公開數(shù)據(jù)和預(yù)測。這些數(shù)據(jù)可以以曲線圖、條形圖、橫截面圖的形式顯示,也可以在地圖上顯示。
26、U.S. Bureau of Economic Analysis(https://www.bea.gov/index.htm):美國官方宏觀經(jīng)濟(jì)和工業(yè)統(tǒng)計數(shù)據(jù),包括美國各地 GPU 相關(guān)報告。此外還包括在國民收入和生產(chǎn)賬戶(NIPA)上的個人收入、公司利潤和政府支出信息。
27、Financial Data Finder at OSU(https://guides.osu.edu/c.php?g=280921&p=2281286):這里提供一切與金融相關(guān)的數(shù)據(jù)的鏈接,包括在線世界發(fā)展指標(biāo)(World Development Indicators Online)、世界銀行公開數(shù)據(jù)(World Bank Open Data)、全球金融數(shù)據(jù)(Global Financial Data)、國際貨幣基金組織統(tǒng)計數(shù)據(jù)(International Monetary Fund Statistical Databases)和 EMIS 情報。
28、National Bureau of Economic Research(https://www.nber.org/):宏觀數(shù)據(jù)、行業(yè)數(shù)據(jù)、生產(chǎn)率數(shù)據(jù)、貿(mào)易數(shù)據(jù)、國際金融數(shù)據(jù)等。
29、U.S. Securities and Exchange Commission(https://www.sec.gov/):該數(shù)據(jù)集以季度為單位,涵蓋從外部數(shù)據(jù)到公司財務(wù)報告中提取出來的信息。
30、Visualizing Economics(http://visualizingeconomics.com/):與經(jīng)濟(jì)相關(guān)的可視化數(shù)據(jù)。
31、Financial Times(https://markets.ft.com/data/):為全球商界提供廣泛的信息、新聞和服務(wù)。
市場和社交媒體
32、Amazon API(https://docs.aws.amazon.com/apigateway/latest/developerguide/welcome.html):可以按分類瀏覽 AWS 上的公共數(shù)據(jù)集,獲取大量信息。
33、American Society of Travel Agents(https://www.asta.org/):ASTA 是世界上最大的旅游協(xié)會。該網(wǎng)站提供旅游代理信息,還提供旅游、郵輪、酒店、租車等產(chǎn)品信息。
34、Social Mention(https://socialmention.com/): Social Mention 是一個社交媒體搜索和分析平臺,它將來自世界各地的用戶產(chǎn)生的內(nèi)容聚合成單一信息流。
35、Google Trends(https://trends.google.com/trends/):展示了在世界上不同地區(qū),特定的搜索詞出現(xiàn)的頻率。
36、Facebook API(https://developers.facebook.com/?locale=en_US):大家可以學(xué)習(xí)如何利用 Graph API 發(fā)布和檢索數(shù)據(jù)。
37、Twitter API(https://developer.twitter.com/en/docs):利用 Twitter 平臺,大家可以在 Twitter 上接入網(wǎng)站或應(yīng)用程序。
38、Instagram API(https://www.instagram.com/developer/):大家可以利用 Instagram API 平臺構(gòu)建非自動化的、真實的、高質(zhì)量的應(yīng)用和服務(wù)。
39、Foursquare API(https://developer.foursquare.com/):支持訪問 Foursquare 數(shù)據(jù)庫,能與 Foursquare 上的用戶和商家進(jìn)行互動。
40、HubSpot(https://www.hubspot.com/marketing-statistics):大型市場數(shù)據(jù)庫。你可以在這里找到最新的市場統(tǒng)計數(shù)據(jù)和趨勢。這里也為社交媒體營銷、內(nèi)容管理、網(wǎng)頁分析、登陸頁面和搜索引擎優(yōu)化提供相關(guān)工具。
41、Moz(https://moz.com/):關(guān)于 SEO 的相關(guān)見解,包括關(guān)鍵詞研究、鏈接建設(shè)、網(wǎng)站審計和頁面優(yōu)化,可以幫助公司直接地分析他們在搜索引擎上的位置,改進(jìn)排名。
42、Content Marketing Institute(https://contentmarketinginstitute.com/):關(guān)于內(nèi)容營銷的最新新聞、專著和研究。
新聞傳媒
43、The New York Times Developer Network(https://developer.nytimes.com/):可以搜索到從 1851 年到現(xiàn)在的文章,支持檢索標(biāo)題、摘要,可以鏈接到相關(guān)的多媒體資源。此外,還能搜索書評、紐約事件列表、電影評論、熱門圖片故事等等。
44、Associated Press API(https://developer.ap.org/ap-content-api):無需訪問美聯(lián)社站點(diǎn),該 API 支持大家用自己的編輯工具搜索和下載內(nèi)容。大家可以下載美聯(lián)社、網(wǎng)站成員和來自第三方的圖片,還可以下載美聯(lián)社和選定的第三方制作的視頻。
45、Google Books Ngram Viewer(https://books.google.com/ngrams):在線搜索引擎,提供谷歌文本語料庫在 1500-2008 年間的 n-gram 數(shù)據(jù)??梢砸詧D例的形式顯示查詢詞在這些年間出現(xiàn)頻率的變化情況。
46、Wikipedia Database(https://en.wikipedia.org/wiki/Main_Page):向用戶免費(fèi)提供平臺上的所有數(shù)據(jù)。
47、FiveThirtyEight(https://fivethirtyeight.com/):它是一個關(guān)注民意調(diào)查分析、政治、經(jīng)濟(jì)和體育的網(wǎng)站。Github 上的數(shù)據(jù)和代碼基于 FiveThirtyEight 上的故事和內(nèi)容。
48、Google Scholar(https://scholar.google.com/):Google 推出的面向?qū)W術(shù)資源的免費(fèi)搜索引擎,能夠幫助用戶查找包括期刊論文、學(xué)位論文、書籍、預(yù)印本、文摘和技術(shù)報告在內(nèi)的學(xué)術(shù)文獻(xiàn),內(nèi)容涵蓋自然科學(xué)、人文科學(xué)、社會科學(xué)等多種學(xué)科。
房地產(chǎn)
49、Castles(https://www.castles-estateagents.co.uk/):一家運(yùn)營良好的私營獨(dú)立機(jī)構(gòu),成立于 1981 年,提供包括住宅銷售、出租、管理、調(diào)查和估價在內(nèi)的綜合服務(wù)。
50、Realestate.com(https://www.realestate.com/):RealEstate.com 是首次購房者的不二之選,會在購房的每個階段為大家提供易于理解的工具和專業(yè)建議。
51、Gumtree(https://www.gumtree.com.au/):Gumtree 是英國首家免費(fèi)分類公告網(wǎng)站。在這個網(wǎng)站上可以購買和出售小物品、汽車、房產(chǎn)等,也可以在這個網(wǎng)站上找工作或進(jìn)行招聘。
52、James Hayward(https://www.james-hayward.com/):針對住宅銷售、出租和管理,提供了一種創(chuàng)新的數(shù)據(jù)庫方法。
53、Lifull Home’s(https://www.homes.co.jp/):日本房地產(chǎn)網(wǎng)站。
54、Immobiliare.it(https://www.immobiliare.it/):意大利房地產(chǎn)網(wǎng)站。
55、Subito(https://www.subito.it/):意大利房地產(chǎn)網(wǎng)站。
56、Immoweb(https://www.immoweb.be/en/): 比利時最大的房地產(chǎn)網(wǎng)站。
公司名錄和評價
57、LinkedIn(https://www.linkedin.com/):LinkedIn 是一家以公司和就業(yè)為導(dǎo)向的社交網(wǎng)絡(luò)服務(wù)商,可以通過網(wǎng)站和移動端訪問。它在 200 多個國家擁有 5 億會員,你可以在這里搜索各種公司。
58、OpenCorporates(https://opencorporates.com/):OpenCorporates 是世界上最大的關(guān)于公司和公司內(nèi)部數(shù)據(jù)的公開數(shù)據(jù)庫,它有超過 1 億家公司的數(shù)據(jù)管轄權(quán)。其主要目的是讓這些公司的信息更加有用,造福于大眾,打擊違法行為(例如腐敗、洗錢和有組織犯罪)。
59、Yellowpages(https://www.yellowpages.com/):它最初是為了更方便地聯(lián)系到當(dāng)?shù)厮芄と?、雜物工人、技工、律師、牙醫(yī)等而建立的。
60、Craigslist(https://www.craigslist.org/about/sites):Craigslist 是一個分類公告網(wǎng)站,其中有工作、住房、物品銷售、求購、服務(wù)、社區(qū)、演出、論壇等不同模塊。
61、GAF Master Elite Contractor(https://www.gaf.com/Roofing/Contractors):1886 年成立,現(xiàn)在已經(jīng)成為北美最大的商業(yè)和住宅屋頂制造商 (該數(shù)據(jù)源于 Fredonia Group 研究報告)。該公司的銷售額現(xiàn)在已經(jīng)增加到近 30 億美元。
62、CertainTeed(https://www.certainteed.com/find-a-pro):如果你想要自建房子或手頭有商業(yè)建筑項目,可以在這里找到美國或加拿大的承包商、改造者、安裝者或建筑商。
63、Companies in California(http://t.cn/RQxS26m):加州各類公司的相關(guān)信息。
64、Manta(https://www.manta.com/):Manta 是最大的在線資源商之一,提供產(chǎn)品、服務(wù)和教育機(jī)會。每個月都有數(shù)百萬人訪問 Manta 名錄,搜索資源庫中的個體企業(yè)、行業(yè)信息和基于地理因素的特定名單。
65、EU-Startups(https://www.eu-startups.com/directory/):歐盟國家的初創(chuàng)公司名錄。
66、Kansas Bar Association(http://t.cn/RQxSzYc):律師名錄。KBA 成立于 1882 年,是法律從業(yè)者自發(fā)組織的志愿者協(xié)會,目前擁有超過 7000 名會員,包括律師、法官、法律專業(yè)學(xué)生和律師助理。
其他門戶網(wǎng)站
67、Capterra(https://www.capterra.com/):商業(yè)軟件和評論名錄。
68、Monster(https://www.monster.com/):招聘網(wǎng)站。
69、Glassdoor(https://www.glassdoor.com/index.htm):工作名錄,涵蓋員工對公司的評論,工資等信息。
70、The Good Garage Scheme(https://www.goodgaragescheme.com/):汽車服務(wù)、汽車修理名錄。
71、OSMOZ(https://www.osmoz.com/):關(guān)于香味的信息。
72、Octoparse(https://www.octoparse.com/):免費(fèi)的數(shù)據(jù)提取工具,可以收集上面提到的所有網(wǎng)站的數(shù)據(jù)。
另外,大家要是知道有什么好用的免費(fèi)數(shù)據(jù)資源也可以后臺留言,期待大家的分享。
via:KDnuggets
雷鋒網(wǎng) AI 研習(xí)社編譯整理。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。