2019五大顶尖数据科学GitHub项目和Reddit热帖
没有什么比GitHub和Reddit更适合数据科学了。 GitHub是托管代码的终极一站式平台,它擅长于简化团队成员之间的协作过程。 多数领先的数据科学家和组织使用GitHub来开源他们的库和框架。因此,我们不仅能够及时了解领域的最新发展,还可以在自己的机器上复制模型。 Reddit的讨论与该频谱的目的相同,领先的研究人员和才华横溢的人才聚集在一起,讨论和推断机器学习和数据科学的最新主题和突破。 从这两个平台中,我们可以学习很多东西。本文介绍了2019年以来最新的开源GitHub库和Reddit讨论。 GitHub项目 1. Flair (最先进的NLP库) (https://github.com/zalandoresearch/flair) 2018年是自然语言处理(NLP)的分水岭。像ELMo和谷歌的BERT这样的库就是突破性的版本。正如Sebastian Ruder所说,“NLP的ImageNet时刻已经到来”! Flair是另一个优秀的NLP库,易于理解和实现。它最好的部分是什么?它非常先进。 Flair由Zalando Research基于PyTorch开发并开源。该库在广泛的NLP任务上优于以前的方法: 这里,F1是准确度评估指标。 2. face.evoLVe – 高性能人脸识别库 (https://github.com/ZhaoJ9014/face.evoLVe.PyTorch) 现在的数据科学领域,应用于计算机视觉的面部识别算法无处不在。 face.evoLVe是一个基于PyTorch的“高性能人脸识别库”。它为面部相关分析和应用程序提供全面的功能,包括: · 面部对齐(检测、地标定位、仿射变换) · 数据预处理(例如,扩充、数据平衡、规范化) · 各种骨干(例如,ResNet、DenseNet、LightCNN、MobileNet等) · 各种损失(例如,Softmax、Center、SphereFace、AmSoftmax、Triplet等) · 提高性能的一系列技巧(例如,培训改进、模型调整、知识蒸馏等)。 该库是实际使用和部署高性能深层识别的必备工具,尤其适用于研究人员和工程师。 3. YOLOv3 (https://github.com/wizyoung/YOLOv3_TensorFlow) YOLO是用于执行对象检测任务的极其快速且准确的框架。它是在三年前推出的,并且从那以后经历了几次迭代,每次都比上一次更加精良。 此存储库是在TensorFlow中实现的YOLOv3的完整管道,可以在数据集上使用,以训练和评估自己的对象检测模型。以下是此存储库的主要亮点: · 高效的tf.data管道 · 重量转换器 · 极快的GPU非极大值抑制(Non Maximum Suppression) · 完整的培训渠道 · 通过K-means算法选择先前的锚箱 4. FaceBoxes: 高准确度的 CPU实时人脸检测器 (https://github.com/zisianw/FaceBoxes.PyTorch) 计算机视觉中最大的挑战之一是管理计算资源。并不是每个人都有多个GPU。 这是一个很难克服的障碍。 加强FaceBoxes。这是一种新颖的人脸检测方法,使用CPU在速度和准确度方面都表现出了令人印象深刻的性能。 该存储库在FaceBoxes的PyTorch中运行。它包含安装、训练和评估人脸检测模型的代码。不要再抱怨缺乏计算能力——今天就试试FaceBoxes吧! 5. Transformer-XL from Google AI (https://github.com/kimiyoung/transformer-xl) 这是另一个改变游戏规则的NLP框架。看到其有Google AI团队的支持也不足为奇(他们也是那些提出BERT的人)。 长距离依赖性一直是NLP方面的棘手问题。即使去年取得了重大进展,但这个概念还没有得到很好的解决。使用了RNN和Vanilla变压器,但它们还不够好。Google AI的Transformer-XL已经填补了这个空白。以下是关于这个库的一些要点: · Transformer-XL能够学习长距离依赖性,比RNN长约80%,比Vanilla Transformer长450%。 · 即使在计算方面,Transformer-XL也比Vanilla Transformer快1800倍! · 由于长期依赖性建模,Transformer-XL在长序列中具有更好的混淆性能(在预测样本时更准确)。 此存储库包含TensorFlow和PyTorch中Transformer-XL的代码。看看你是否可以匹配(甚至击败)NLP中最先进的结果! Reddit 热帖 1. 数据科学家是新型业务分析师 (https://www.reddit.com/r/datascience/comments/aj6ohk/data_scientist_is_the_new_business_analyst/) 不要被标题中的热门话题所迷惑。这是对数据科学当前状态及其在世界各地的教学方式的认真讨论。 在不同的数据科学角色上确定特定标签总是很困难的。功能和任务各不相同——那么谁应该准确地学习什么?该主题探讨教育机构如何仅涵盖基本概念并声称教授数据科学。 对于所有处于初级学习阶段的人——请务必浏览此讨论。你将了解到很多关于招聘人员如何看待持有认证或学位的潜在候选人声称他们是数据科学家这一事件。 当然,你将了解商业分析师的工作内容,以及与数据科学家的不同之处。 2. 数据科学中有什么东西让你大吃一惊 (https://www.reddit.com/r/datascience/comments/aczhjc/what_is_something_in_ds_that_has_blown_your_mind/) 数据科学让你感到惊叹的的一件事是什么? 在这个讨论主题中有很多不可思议的理论和事实会让你参与其中。以下是来自该帖子的几个很酷的答案: “世界上有多少地方可以用众所周知的分布来建模。很多事物都是正太分布的这一事实让我觉得我们正处于模拟中。“ “第一件引起我注意并推动我从事数据科学事业的事情是美联航每年通过改变用于制作飞行杂志的纸张类型来节省170,000的燃料。” 3. 顶尖数据科学家在职业生涯早期致力于解决的问题 (https://www.reddit.com/r/MachineLearning/comments/afl3t1/d_machine_learning_people_what_are_some_things/) 大多数数据科学家很确定地说,他们在最初的日子里很难理解某些概念。甚至像估算缺失值那样简单的事情也会成为挫折中的艰苦工作。 这个主题是所有数据科学爱好者的金矿。它由经验丰富的数据科学家组成,他们分享了自己如何设法学习或了解最初难以掌握的概念。其中一些甚至可能对你来说很熟悉: · “最难的部分是学习不同类型的输入形状(DNN,RNN,CNN)如何工作。 我想我花了大约20个小时来确定RNN的输入形状。“ · “每次都是,现在仍然充满挑战,就是在系统上设置开发环境。安装CUDA,Tensorflow,PyCharm。 那些日子真是令人恐惧和绝望。“ · “配置TensorFlow以使用我的GPU能够运作,这需要数小时的谷歌搜索和反复试验。” 4. 为什么深度学习网络可以得到很好的推广 (https://www.reddit.com/r/MachineLearning/comments/abj1mc/d_notes_on_why_deep_neural_networks_are_able_to/) 神经网络长期以来一直有“黑匣子”的声誉(它不再是真的了)。当概念扩展到深度神经网络(DNN)时,事情变得更加混乱。这些DNN是许多最新技术成果的核心,因此了解它们的工作原理至关重要。 这个主题中讨论的一个关键问题是神经网络如何深入推广。如果你有同样的想法,但对此没有答案——准备好大吃一惊吧! 该主题包括深度学习专家提出的观点。包含了大量的链接和资源,以深入探讨该主题。但请注意,对神经网络的基本了解将有助于你更多地参与讨论。 5. AMA 和 DeepMind的 AlphaStar 团队 (https://www.reddit.com/r/MachineLearning/comments/ajgzoc/we_are_oriol_vinyals_and_david_silver_from/) 当AlphaGo创作击败围棋冠军李世石时,谷歌的DeepMind震惊世界。他们又一次席卷而来! 其最新的算法AlphaStar在流行游戏的星际争霸2中受过训练。AlphaStar强调将两位星际争霸球员放在一边,以10-1的优势赢得胜利。 这个Reddit讨论主题是由两个DeepMind AlphaStar的创建者主持的AMA(Ask Me Anything)。他们与Reddit社区讨论了各种各样的主题,解释了算法如何工作,,使用了多少训练数据,硬件设置是什么样的,等等。 这个讨论中有两个有趣的问题: “为了达到目前的水平,需要玩多少场比赛? 或者换句话说:以你为例,有多少游戏是需要长达200年的学习?“ “尝试了哪些其他方法?我知道人们对是否会涉及任何树搜索、深层环境模型或分层RL技术感到非常好奇,它们似乎都不可行;如果尝试过,他们中的任何一个都取得了可观的进展吗?” (编辑:ASP站长网) |