科技改變生活 · 科技引領未來
機器學習中最重要的是數據集。哪里可以找到最好的機器學習數據集?我把我10年來壓箱底的東西都拿出來了,不看絕對后悔?。?!在機器學習的過程中,優秀的數據集能夠幫助我們應用不同的算法模型,從而讓我們快速成長。但在自學機器學習的過程中,由于生活中很
機器學習中最重要的是數據集。哪里可以找到最好的機器學習數據集?我把我10年來壓箱底的東西都拿出來了,不看絕對后悔?。?!
在機器學習的過程中,優秀的數據集能夠幫助我們應用不同的算法模型,從而讓我們快速成長。但在自學機器學習的過程中,由于生活中很難找到標準的測試數據集,學習者往往很難保持長久的積極性,從而影響學習進度。
但是這些又不能阻礙我們學習進步,那怎么辦?
今天給大家推薦3種解決方式:
先給大家看看我的主頁,里面有我日常在數據分析機器教學中使用過的導航網站。
普通人身邊的機器學習數據
其實在我們日常生活和工作中,無時不刻不在產生數據,但我們往往都忽略了它,有很多平臺利用這一點薅了我們的羊毛。對于我們個人來說,采集這些信息去進行機器建模學習效果并不是很好,所以我們還需要借助更廣闊的互聯網資源。
優秀的通用機器學習數據集成平臺
數據集聚合平臺收集了數千個數據集合。國內有很多這種平臺,比如 阿里天池、DC競賽、DF競賽等等,但是這些平臺對新手不是很友好,一方面是因為專業性比較強(很多新手不懂業務邏輯,沒有辦法做數據預處理 很多業務邏輯都不懂根本沒法做數據預處理),另一方面是因為個人感覺這些平臺在用一些低廉的獎金來騙方案、模型以及業務邏輯,這部分就不多解釋了。
對于初學者來說掌握科學上網是必備的,因為機器學習的內容最早都來源于歐美,對于這些內容的理解、對數據的應用相較于國內更成熟,同樣國內很多論文也是在國外內容的基礎上衍生出來的。
同時還要知道的是,對數據要求比較嚴格的是數據標注,但國內暫時還沒有一個平臺能夠完整提供這些領域的內容,而且還有很多山寨的是聚合數據平臺,因為太多了就不一一列舉了。這些平臺基本上從國外網站、或者各種同行之間互相搬,沒有實際意義,而且有很多數據是殘缺的,完全就是在收智商稅。既然我們要學習,那不如直接找到國外的原始根源數據集進行練手,避免被收智商稅。
而且你會發現很多很多在線的機器學習相關課程的數據集都不會脫離下面這些平臺。
整理不易,建議點贊收藏。
PS:如果打不開的話需要科學上網喲
既然要做這塊那我們不如直接找到國外的原始根源數據集進行練手,避免被收智商稅。
整理不容易,請收藏。所有網站打不開的都需要科學上網。
kaggle
Kaggle: Your Machine Learning and Data Science Community 是一個社區驅動的機器學習平臺,每天都有無數愛好者在平臺更新,是截至目前更新最頻繁的數據聚合集成平臺。是一個共有工具和資源的數學科學社區,其中包括了各種外部貢獻的機器學習數據集,從健康到運動,再到食物、旅行、教育等等。
對于我們而言,平臺內有大量教程科學系,覆蓋了數百個不同的現實ML問題。雖然說數據質量參差不齊,但是所有數據都是免費的,而且還可以上傳自己數據集。
整體來看,kaggle訓練數據的最佳場所之一,同時也是是擁有最大的在線數據集庫之一。
Google Dataset Search
Google Dataset Search 谷歌數據集搜索來自Google 的搜索引擎,擁有超過2500萬個數據集,工作原理類似于Google Scholar??梢詭椭覀儾檎颐赓M提供的在線數據,在這里能夠找到經濟、金融數據,還有由WHO、Statista或哈佛等組織上傳的數據集。
Registry of Open Data on AWS
可以借助 Registry of Open Data on AWS 來自于亞馬遜,使用時可根據需求找到的數據進行研究。在數據庫創建者中會發現 Facebook Data for Good、NASA Space Act Agreement 和 Space Telescope Science Institute。
Microsoft Azure Public Datasets
Public data sets for Azure analytics - Azure SQL公共數據集為應用程序開發人員和研究人員定期更新數據庫。包含 Microsoft 收集的有關其用戶的美國政府數據、其他統計和科學數據以及在線服務信息。此外 Azure 提供了一系列工具,可幫助創建自己的云數據庫,將 SQL 工作負載遷移到 Azure,同時保持完整的 SQL Server 兼容性,以及構建數據驅動的移動和 Web 應用程序。
r/datasets
r/datasets 是一個集分享、查找和討論數據集的社區,有點像帶有專業屬性類型的論壇。在這里所有人都可以發布自己的開源數據庫,有的時候還能得到意想不到的數據集,可以用它嘗試去做一些模型來學習。
CMU Libraries
Databases A-Z 是卡耐基梅隆大學自有的公共數據集集合,提供了很多其他聚合器沒有的美國文化、音樂、歷史方面的數據庫,學習者可以將其用于自己的研究。
UCI Machine Learning Repository
UCI Machine Learning Repository 可以說這個平臺以一己之力養活了國內許多山寨平臺,國內有很多山寨數據聚合平臺都是從這個平臺搬運內容。這個平臺提供了507個數據集,包括了銀行營銷、汽車評估、肺癌診斷等主題。
除了一些山寨數據平臺,還有很多開發機器學習課程的數據也是從這里搬走的,比如傳說中的波士頓房價預測。
Awesome Public Datasets on Github
Awesome Public Datasets on Github 相對小眾,其實它是一個非常好的開源合集,里面有按行業劃分的在線可用的最佳數據集,有很多人都不知道這個數據集,因為在git上只知道搬運代碼。
Data World
Data World 與 Google 數據集搜索引擎非常相似,但是知道的人沒那么多,很少被提到。這個數據平臺的特點是,不同于其他平臺,Data World除了能夠顯示數據集本身的內容以外,還顯示包含數據的子文件數據,這個功能在查詢人口統計或是地理位置信息上的優勢就非常明顯了。
CERN Open Data Portal
CERN Open Data Portal 是日內瓦的歐洲核研究組織的開放數據門戶。歐洲核研究組織是歐洲最負盛名的研究機構之一,他們的粒子碰撞數據在全球無人能及。同樣,他們的開放數據門口也非常吸引人,收集并提供了超過 2 PB 的包含(粒子物理學)的數據,但對我們普通人來說,或許用不到這些內容。
Lionbridge AI Datasets
Lionbridge AI Datasets 是一家提供數據收集、注釋和驗證服務的公司。這個平臺的數據集很全面,除了自定義標簽環境外,我們日常感興趣的各種數據集都能找到。
EU Open Data Portal
data.europa.eu 是歐盟機構和其他實體發布的公共數據的訪問點,包括了與經濟、農業、教育、就業、氣候、金融、科學等相關的數據。整體而言類型很多,但是其數據均來源于歐盟。
Datahub
Datahub 是 Datopian 和 Open Knowledge International 的一個項目,其目的是為數據創建工具和應用程序。構建的 CKAN 是世界領先的數據門戶平臺。是一個發現和分享高質量數據集、與他人聯系和分享知識的社區。
那么以上差不多就是冷門熱門,比較齊全的數據集了,畢竟名氣大,用途廣的也就那么幾個;而且做數據分析久了以后會發現很多數據都是相同或是有相似地方的。
接下來按照不同類別說明一些優秀的垂直領域的數據集。
機器學習和數據科學的最佳公共數據集
計算機視覺的圖像數據集(20)
現在有很多機器學習的項目理念和實驗室研究項目正是基于訓練視覺數據的。計算機視覺能夠將圖像或視頻數據集用于圖像采集、圖像分類、圖像分析和語義分割等,對此進行一系列計算視覺任務,在醫學成像、汽車自動駕駛、面部識別等領域都有運用。
只有大量且高質量的訓練數據,才能為計算機視覺構建強大的機器學習、深度學習模型。
1.Open Images V6 (谷歌的開放圖像數據集)
Open Images V6 儲存量非常多,已經超過了900萬,包括了對象邊界框、對象分割和標簽。它非常多樣化,不僅包含復雜樣本,并且每張圖像還包括多個對象。
2.VisualData(視覺數據)
VisualData 是計算機視覺數據集的聚合器,學習者可以在其中找到用于機器學習的醫學數據集、圖像數據集和其他用于商業、教育和其他類型 ML 研究的機器學習數據樣本。
3.xView
xView 是最大的公開可用的高空圖像存儲之一,其中一個龐大的高空圖像公共數據集包含超過 100 萬張對象圖像,其中包含來自世界各地復雜場景的 60 個類別,并使用邊界框進行注釋。
4.Kinetics-700
Kinetics 內包含高質量的大規模深度學習數據集,包括了人與對象和人與人交互的視頻剪輯,非常適合訓練人類動作識別模型。一個大型、高質量的 URL 視頻數據集,會鏈接到大約 650000 個 Youtube 視頻剪輯,涵蓋 700 個人類行為類別。這些視頻包括人與物體的互動,以及人與人的互動。
5.ImageNet(圖片網絡)
ImageNet 是計算機視覺中最受歡迎和最大的數據集之一,是根據 WordNet 層次結構組織的,主要用于深度計算機視覺的圖像。它目前在 1000 個類別中擁有 1281167 張用于訓練的圖像和 50000 張用于驗證的圖像。
6.Visual QA(視覺問答)
Visual QA 包含關于超過 265016 張圖像的開放式問題,可用于更好地理解計算機視覺建模和語言處理。一個包含關于圖像的開放式問題的新數據集包括 265016 張圖像,每張圖像至少三個問題,每個問題十個答案。
7.MNIST
MNIST 數據庫是手寫數字識別的樣本集合,其中有一個包含 60000 多個示例的訓練集以及一個 10000 個的測試集,它也是最早我們進行機器學習入門常用的一個數據集。在網站上還將找到一個表格,該表格比較了應用于該數據集的不同類型分類器的有效性,對于初學者非常友好。
8.CIFAR-10
CIFAR-10 是用于訓練深度學習計算機視覺算法的圖像集合。該數據庫由 10 類 60000 張 32x32 彩色圖像組成,每類有 6000 張圖像。
9.COCO
COCO 是一個定期更新的數據庫,用于在上下文中進行對象分割和識別,由 Microsoft、Facebook 和 Mighty AI 贊助。大規模對象檢測、分割、關鍵點檢測和字幕開源數據集,包含超過 200,000 個標記圖像。
10.Labeled Faces in the Wild(標記的面孔)
Labeled Faces in the Wild 是用于訓練和測試人臉識別模型的數據集。一個包含 13000 張面部照片的高質量數據庫,專為開發面部識別項目而設計,每張臉都標有圖中人物的名字。
11.Labelme
Labelme 由 MIT 計算機科學與人工智能實驗室 (CSAIL) 創建的廣泛數據集。包含 187240 個圖像、62197 個帶注釋的圖像和 658992 個標記的對象。
12.LSUN
LSUN ,包含 10 個場景類別(例如教堂、餐廳等)和 20 個對象類別(例如鳥、飛機等)中的每一個的大約一百萬個標記圖像。旨在為大規模場景分類和理解提供不同的基準。
13.COIL100
COIL100 包含 100 個對象的 7200 個彩色圖像(每個對象 72 個圖像)的數據集,以 360 度旋轉的每個角度成像。由哥倫比亞大學智能系統研究中心收集。
14.Visual Genome(視覺基因組)
Visual Genome 一個龐大而詳細的數據集和知識庫,帶有超過 100000 張圖像的字幕。
15.Google’s Open Images(谷歌開放圖像)
Google’s Open Images 是一個由超過 900 萬張帶有豐富注釋的不同圖像的集合。包含 6000 個類別的圖像級標簽注釋、對象邊界框、對象分割和視覺關系。這個大型圖像數據庫是很多數據科學項目的重要數據來源。
16.Indoor Scene Recognition(室內場景識別)
Indoor Scene Recognition 是一個識別包含 7 個室內類別的 5620 張圖像的數據庫。每個類別至少有 100 張 jpg 格式的圖像。
17.CelebFaces(名人面孔)
CelebFaces 超過 20 萬張名人圖像的大規模數據集。每個圖像包含 40 個屬性注釋。這些圖像涵蓋了一系列姿勢變化和雜亂的。
18.Stanford Dogs Dataset(斯坦福犬數據集)
Stanford Dogs Dataset,是一個包括了自世界各地的 120 種狗的圖像的數據集。它包含 120 個類別的 20580 張圖像,通過類標簽和邊界框進行注釋。想要對狗狗有研究的千萬不要錯過?。。?/p>
19.Places
Places 是麻省理工學院計算機科學與人工智能實驗室提供的數據集。在205 個場景類別中有超過 250 萬張圖像。每張圖片都帶有一個類別標簽。學習者可以使用它來訓練深度神經網絡以理解各種場景。
20.Cityscapes Dataset(城市景觀數據集)
Cityscapes Dataset 一個大規模數據集,包含在來自 50 個不同城市的街景中記錄的各種立體視頻序列。它帶有 5000 幀的像素級注釋和一組 20000 個弱注釋幀,可用于語義分割和訓練深度神經網絡以了解城市場景。
自然語言處理數據集(17)
1.The NLP Index(NLP 指數)
The NLP Index 是一個用于 NLP 相關任務的 841 個數據集的集合,包括文檔分類、自動圖像字幕、對話、聚類、意圖分類、語言建模或機器翻譯。
2.Enron Email Dataset(安然電子郵件數據集)
Enron Email Dataset 是由 CALO 項目(學習和組織的認知助手)收集和準備的數據集。包括了由安然公司 158 名員工生成的超過 600000 封電子郵件。
3.Google Books Ngram Viewer(Google 圖書 Ngram 查看器)
Google Books Ngram Viewer 有從 Google 圖書語料庫中提取的大量單詞?!皀”指定元組中元素的對應的單詞或字符數量。
4.The Wikipedia Corpus(維基百科語料庫)
The Wikipedia Corpus 是一個龐大的數據集,包含超過 400 萬篇文章的 19 億字的數據集。使用時可以按單詞、短語、詞性、同義詞、術語比較等進行搜索。此外可以從語料庫中的 4400000 篇文章中的任何一篇中創建和使用特定主題的虛擬語料庫。
5.SMS Spam Collection in English(英文垃圾短信收集)
SMS Spam Collection in English 是一個小型數據集,包含 5574 條帶有 SMS 標記的消息(英文),用于手機垃圾郵件研究,能夠被標記為合法或垃圾郵件。
6.Multidomain Sentiment Analysis Dataset(多域情感分析數據集)
Multidomain Sentiment Analysis Dataset 是一個比較舊的數據集,包含了來自亞馬遜的正面和負面產品評論。評論包含從 1 到 5 星的評級。
7.Stanford Sentiment Treebank(斯坦福情緒樹庫)
Stanford Sentiment Treebank 以爛番茄評論為基礎,是一個帶有情感注釋的大型電影評論數據集。它包含 10000 多條數據。這個標準情緒數據集的原始代碼由 Matlab 編寫。
8.Sentiment140
Sentiment140,包含使用 Twitter API 提取的 160 萬條推文的數據集(最初它不是開源的,但現在可以在 Kaggle 上免費獲得)。推文已經過注釋(0 = 負面,2 = 中性,4 = 正面),可用于檢測情緒。此 Twitter 數據以 CSV 格式提供,已刪除表情符號。反正這種東西微信、微博估計打死也不會公布這些內容。
9.Twitter US Airline Sentiment(Twitter 美國航空公司情感)
Twitter US Airline Sentiment 包含自 2015 年 2 月以來關于美國各大航空公司的推文的數據集。推文分為正面、負面或中性。它包括 Twitter ID、情緒信心評分、負面原因、航空公司名稱、轉發計數等功能。
10.OpinRank Review Dataset(OpinRank 審查數據集)
OpinRank Review Dataset 從 Tripadvisor 和 Edmunds 收集的大量關于汽車和酒店的評論。有近 260000 條酒店評論和 42230 條汽車評論。
11.Amazon Review Data (2018)(亞馬遜評論數據 (2018))
Amazon Review Data (2018) 2014 年亞馬遜評論數據集的更新版本。它包含 1996 年 5 月至 2018 年 10 月期間收集的 2.331 億條評論。其他功能包括產品元數據(描述、類別信息、價格、品牌和圖像特征)和鏈接(也查看/還買了圖表)。
12.Sentiment Lexicons for 81 Languages(81 種語言的情感詞典)
Sentiment Lexicons for 81 Languages 在 Kaggle 上發布的數據集。包含 81 種語言的正面和負面情緒詞典。情感是基于英語情感詞典構建的。
該數據集通常用于機器學習技術的文本應用實驗,例如文本分類和文本聚類。
13.Legal Case Reports Dataset(法律案例報告數據集)
Legal Case Reports Dataset 一個小型數據集,包含 4000 個法律案例的文本摘要,可以從 UCI 機器學習存儲庫下載。用于訓練自動文本摘要的極好數據源。
14.WordNet
WordNet 是一個詞匯數據庫,包含分組為同義詞集的所有詞性。這種結構使其成為自然語言處理和語言研究的絕佳工具。
15.20 Newsgroups(20 個新聞組)
20 Newsgroups 來自 20 多個不同新聞組的 20,000 份文檔的集合。內容涵蓋了各種主題,其中一些密切相關,以供參考。提供三個版本:原始版本、按日期排序和刪除重復版本。 是一個數據集,包含來自 20 個不同新聞組的 18000 多個文本文檔,包括體育、技術、藝術、娛樂等。
16.IMDB Movie Reviews Dataset(IMDB 電影評論數據集)
IMDB Movie Reviews Dataset 來自 IMDB 的 50000 條電影評論的龐大集合(原始和預處理的電影評論,用于通過深度學習進行情感分析)。包含 25000 條高度兩極分化的電影評論用于訓練和 25000 條用于測試。負面評論得分低于 4 分(滿分 10 分),正面評論得分超過 7 分(滿分 10 分)。
17.Yelp Reviews(Yelp 評論)
Yelp Reviews 是一個開放數據集,包含超過 860 萬條評論和 20 萬張圖片,可用于個人和學術目的的用戶評論、商業信息和圖像。還包含超過 120 萬個業務屬性,例如營業時間、停車位、可用性和氛圍。
音頻語音和音樂數據集(10)
1.Common Voice(共同的聲音)
Common Voice 用于訓練語音技術的高質量開源和多語言語音數據集。該項目由志愿者領導,使用麥克風錄制示例句子并查看其他用戶的錄音。
2.LibriSpeech(圖書館演講)
LibriSpeech 來自有聲讀物的大約 1000 小時閱讀英語語音的高質量數據集。所有音頻數據都經過仔細分割和對齊。
3.Spoken Wikipedia Corpora(口語維基百科語料庫)
Spoken Wikipedia Corpora 口語維基百科語料庫,包括來自英語、德語和荷蘭語維基百科的數百篇文章。該數據源的優勢歸結為多樣化的讀者和主題。
4.VoxForge
VoxForge 一個開放的語音數據集,用于收集英語、德語、意大利語、葡萄牙語或西班牙語等語言的轉錄語音。
5.Free Music Archive (FMA)(免費音樂檔案 (FMA))
Free Music Archive (FMA) 用于音樂分析的數據集。包含完整長度和 HQ 音頻、預先計算的功能以及軌道和用戶級元數據。音頻數據來自 16341 位藝術家的 106574 首曲目和 14854 張專輯,按 161 種流派的分級分類排列。
6.Ballroom
Ballroom 包含交際舞信息的音樂數據集(在線課程等)。許多舞蹈風格的一些特色摘錄以真實音頻格式提供。實例總數為 698,持續時間約為 30 秒。
7.YouTube 8M
YouTube 8M 擁有超過 600 萬個視頻、經過人工驗證的標簽以及大約 26 億個音頻和視頻功能。
8.AudioSet(音頻集)
AudioSet 具有手動注釋音頻事件的豐富數據集。它包含 632 個音頻事件類和從 YouTube 視頻中提取的 2,084,320 個人工標記的 10 秒聲音片段的集合。
9.FSD
FSD 包含大量的聲音樣本,從人類和動物的聲音到音樂和機械噪音。
10.Free Music Archive
Free Music Archive 是用于音樂分析的數據集。
推薦系統應用數據集(3)
1.Amazon review data(亞馬遜產品數據)
Amazon review data 包含在亞馬遜上銷售的數百萬件商品的元數據和評論。對于任何對推薦系統感興趣的人來說,這個絕對比你用爬蟲去抓淘寶、京東、拼多多這些平臺數據要好用的多。
2.MovieLens
MovieLens 是一個為用戶提供個性化電影推薦的網站,還有一個開源數據集可以使用它來訓練的模型。
3.Jester Collaborative Filtering Dataset (Jester 協同過濾數據集)
Jester Collaborative Filtering Dataset 擁有來自 7W+ 名用戶的百個笑話的超過 400 萬個評分。
金融和經濟學的機器學習數據集(7)
收集的大量財務記錄可以使用易于訪問的豐富公共數據集來訓練模型。機器學習已廣泛用于算法交易、股市預測、投資組合管理和欺詐檢測,這已經不是什么秘密了.此外多年來深度學習的發展使測試經濟模型、更輕松地收集新數據源以及預測行為以幫助制定政策。
1.Global Financial Development (GFD)(全球金融發展 (GFD))
Global Financial Development (GFD) 涵蓋全球 214 個經濟體的金融系統特征的廣泛數據集。包含自 1960 年以來收集的年度數據。
2.Financial Times Markets Data(金融時報市場數據)
Financial Times Markets Data 包含來自世界各地的金融市場的最新數據源,該數據集包含有關股票和股票價格、股票、貨幣、債券和商品表現的信息。
3.Quandl
Quandl 是一個擁有豐富的金融、經濟和替代數據數據集的平臺。數據有兩種格式:時間序列(一段時間內的數據)和表格(數字和未排序的數據類型,如字符串等)。
4.IMF Data(國際貨幣基金組織數據)
IMF Data 是國際貨幣基金組織發布與國際貨幣基金組織貸款、匯率以及其他經濟和金融指標相關的數據。
5.American Economic Association (AEA)(美國經濟協會 (AEA))
American Economic Association (AEA) 一個鏈接到一些最有用和最流行的經濟數據源的網站,包括美國宏觀經濟數據以及個人層面的全球收入、就業和健康數據。
6.EOD(股票價格)
股票市場,量化交易數據起源于 EOD 股票價格 存儲有關美國股票當日股票價格、股息和拆分的歷史數據。
7.World Bank (世界銀行)
World Bank Open Data 無需注冊即可訪問的來自世界銀行的開放數據。包含有關人口統計數據、宏觀經濟數據和關鍵發展指標的數據。進行大規模數據分析的重要數據來源。最重要的是支持中文!支持中文!支持中文!
健康醫療行業的數據集(3)
1.MIMIC-III
MIMIC-III 是一個開源匿名數據集,包含 40,000 多名重癥監護患者的健康數據。涵蓋的參數包括人口統計、生命體征、實驗室測試和藥物攝入量,這種類型的東西在國內太難找了。
2.Medical Imaging Annotation - V7 Darwin
Medical Imaging Annotation - V7 Darwin 是放射科醫生每天都對醫學圖像進行注釋(或標記)。這可以在 DICOM 查看器中完成,其中包含基本注釋功能,例如邊界框、箭頭,有時還包含多邊形。機器學習 (ML) 有時可能會利用這些標簽,但它們的格式通常與 ML 研究的需求不一致,例如缺少實例 ID、屬性、標簽隊列或 Pytorch 或 TensorFlow 等深度學習框架的正確格式。
3.US Healthcare Data(美國醫療保健數據)
衛生保健和公共衛生的統計數據和數據集??梢哉业綇?FDA 和 USDA 食品成分數據庫收集的有關人口健康、疾病、藥物和健康計劃的數據。
房地產數據集(2)
1.The Boston Housing Dataset (波士頓住房數據集)
The Boston Housing Dataset 老掉牙用爛的有關波士頓馬薩諸塞州住房的數據。
2.Zillow (房地產研究網站 )
Housing Data - Zillow Research 是有關美國按大小、類型和等級劃分的房價和租金的信息。
教育行業數據集(2)
1. NEES(美國國家教育統計中心)
National Center for Education Statistics (NCES) Home Page, a part of the U.S. Department of Education,包含美國和國際教育機構和教育人口統計數據的網站。
2.Data Catalog (世界銀行全球教育統計數據集 )
Data Catalog 包含有關教育的 4000 多個國際可比指標的數據。
最后的總結
上面的數據集基本上能滿足個人起步學習用于機器學習、計算機視覺、數據分析、數據挖掘和數據可視化項目。
數據集在機器學習中非常重要,需要大量的數據,但手頭可能缺少數據。但是互聯網上的公開數據種類繁多,從日本公開的數據到海外公開的數據都有。如果可以選擇適合要構建的系統和目的的數據集,肯定會有所幫助。
趕緊下載其中一個數據集加入數據分析的行列吧。
丁熙一