史上最全的“大数据”学习资源整理【2-2】

admin 发表于 2016-5-10 16:46:35

数据摄取
[*]Amazon Kinesis：大规模数据流的实时处理；

[*]Apache Chukwa：数据采集系统；

[*]Apache Flume：管理大量日志数据的服务；

[*]Apache Kafka：分布式发布-订阅消息系统；

[*]Apache Sqoop：在Hadoop和结构化的数据存储区之间传送数据的工具；

[*]Cloudera Morphlines：帮助 Solr、HBase和HDFS完成ETL的框架；

[*]Facebook Scribe：流日志数据聚合器；

[*]Fluentd：采集事件和日志的工具；

[*]Google Photon：实时连接多个数据流的分布式计算机系统，具有高可扩展性和低延迟性；

[*]Heka：开源流处理软件系统；

[*]HIHO：用Hadoop连接不同数据源的框架；

[*]Kestrel：分布式消息队列系统；

[*]LinkedIn Databus：对数据库更改捕获的事件流；

[*]LinkedIn Kamikaze：压缩已分类整型数组的程序包；

[*]LinkedIn White Elephant：日志聚合器和仪表板；

[*]Logstash：用于管理事件和日志的工具；

[*]Netflix Suro：像基于Chukwa 的Storm和Samza一样的日志聚合器；

[*]Pinterest Secor：是实现Kafka日志持久性的服务；

[*]Linkedin Gobblin：LinkedIn的通用数据摄取框架；

[*]Skizze：是一种数据存储略图，使用概率性数据结构来处理计数、略图等相关的问题；

[*]StreamSets Data Collector：连续大数据采集的基础设施，可简单地使用IDE。
服务编程
[*]Akka Toolkit：JVM中分布性、容错事件驱动应用程序的运行时间；

[*]Apache Avro：数据序列化系统；

[*]Apache Curator：Apache ZooKeeper的Java库；

[*]Apache Karaf：在任何OSGi框架之上运行的OSGi运行时间；

[*]Apache Thrift：构建二进制协议的框架；

[*]Apache Zookeeper：流程管理集中式服务；

[*]Google Chubby：一种松耦合分布式系统锁服务；

[*]Linkedin Norbert：集群管理器；

[*]OpenMPI：消息传递框架；

[*]Serf：服务发现和协调的分散化解决方案；

[*]Spotify Luigi：一种构建批处理作业的复杂管道的Python包，它能够处理依赖性解析、工作流管理、可视化、故障处理、命令行一体化等等问题；

[*]Spring XD：数据摄取、实时分析、批量处理和数据导出的分布式、可扩展系统；

[*]Twitter Elephant Bird：LZO压缩数据的工作库；

[*]Twitter Finagle：JVM的异步网络堆栈。

调度
[*]Apache Aurora：在Apache Mesos之上运行的服务调度程序；

[*]Apache Falcon：数据管理框架；

[*]Apache Oozie：工作流作业调度程序；

[*]Chronos：分布式容错调度；

[*]Linkedin Azkaban：批处理工作流作业调度；

[*]Schedoscope：Hadoop作业敏捷调度的Scala DSL；

[*]Sparrow：调度平台；

[*]Airflow：一个以编程方式编写、调度和监控工作流的平台。

机器学习
[*]Apache Mahout：Hadoop的机器学习库；

[*]brain：JavaScript中的神经网络；

[*]Cloudera Oryx：实时大规模机器学习；

[*]Concurrent Pattern：Cascading的机器学习库；

[*]convnetjs：Javascript中的机器学习，在浏览器中训练卷积神经网络（或普通网络）；

[*]Decider：Ruby中灵活、可扩展的机器学习；

[*]ENCOG：支持多种先进算法的机器学习框架，同时支持类的标准化和处理数据；

[*]etcML：机器学习文本分类；

[*]Etsy Conjecture：Scalding中可扩展的机器学习；

[*]Google Sibyl：Google中的大规模机器学习系统；

[*]GraphLab Create：Python的机器学习平台，包括ML工具包、数据工程和部署工具的广泛集合；

[*]H2O：Hadoop统计性的机器学习和数学运行时间；

[*]MLbase：用于BDAS堆栈的分布式机器学习库；

[*]MLPNeuralNet：针对iOS和Mac OS X的快速多层感知神经网络库；

[*]MonkeyLearn：使文本挖掘更为容易，从文本中提取分类数据；

[*]nupic：智能计算的Numenta平台，它是一个启发大脑的机器智力平台，基于皮质学习算法的精准的生物神经网络；

[*]PredictionIO：建于Hadoop、Mahout和Cascading上的机器学习服务器；

[*]SAMOA：分布式流媒体机器学习框架；

[*]scikit-learn：scikit-learn为Python中的机器学习；

[*]Spark MLlib：Spark中一些常用的机器学习（ML）功能的实现；

[*]Vowpal Wabbit：微软和雅虎发起的学习系统；

[*]WEKA：机器学习软件套件；

[*]BidMach：CPU和加速GPU的机器学习库。

基准测试
[*]Apache Hadoop Benchmarking：测试Hadoop性能的微基准；

[*]Berkeley SWIM Benchmark：现实大数据工作负载基准测试；

[*]Intel HiBench：Hadoop基准测试套件；

[*]PUMA Benchmarking：MapReduce应用的基准测试套件；

[*]Yahoo Gridmix3：雅虎工程师团队的Hadoop集群基准测试。

安全性
[*]Apache Knox Gateway：Hadoop集群安全访问的单点；

[*]Apache Sentry：存储在Hadoop的数据安全模块。

系统部署
[*]Apache Ambari：Hadoop管理的运作框架；

[*]Apache Bigtop：Hadoop生态系统的部署框架；

[*]Apache Helix：集群管理框架；

[*]Apache Mesos：集群管理器；

[*]Apache Slider：一种YARN应用，用来部署YARN中现有的分布式应用程序；

[*]Apache Whirr：运行云服务的库集；

[*]Apache YARN：集群管理器；

[*]Brooklyn：用于简化应用程序部署和管理的库；

[*]Buildoop：基于Groovy语言，和Apache BigTop类似；

[*]Cloudera HUE：和Hadoop进行交互的Web应用程序；

[*]Facebook Prism：多数据中心复制系统；

[*]Google Borg：作业调度和监控系统；

[*]Google Omega：作业调度和监控系统；

[*]Hortonworks HOYA：可在YARN上部署HBase集群的应用；

[*]Marathon：用于长期运行服务的Mesos框架。

应用程序
[*]Adobe spindle：使用Scala、Spark和Parquet处理的下一代web分析；

[*]Apache Kiji：基于HBase，实时采集和分析数据的框架；

[*]Apache Nutch：开源网络爬虫；

[*]Apache OODT：用于NASA科学档案中数据的捕获、处理和共享；

[*]Apache Tika：内容分析工具包；

[*]Argus：时间序列监测和报警平台；

[*]Countly：基于Node.js和MongoDB，开源的手机和网络分析平台；

[*]Domino：运行、规划、共享和部署模型——没有任何基础设施；

[*]Eclipse BIRT：基于Eclipse的报告系统；

[*]Eventhub：开源的事件分析平台；

[*]Hermes：建于Kafka上的异步消息代理；

[*]HIPI Library：在Hadoop's MapReduce上执行图像处理任务的API；

[*]Hunk：Hadoop的Splunk分析；

[*]Imhotep：大规模分析平台；

[*]MADlib：RDBMS的用于数据分析的数据处理库；

[*]Kylin：来自eBay的开源分布式分析工具；

[*]PivotalR：Pivotal HD / HAWQ和PostgreSQL中的R；

[*]Qubole：为自动缩放Hadoop集群，内置的数据连接器；

[*]Sense：用于数据科学和大数据分析的云平台；

[*]SnappyData：用于实时运营分析的分布式内存数据存储，提供建立在Spark单一集成集群中的数据流分析、OLTP（联机事务处理）和OLAP（联机分析处理）；

[*]Snowplow：企业级网络和事件分析，由Hadoop、Kinesis、Redshift 和Postgres提供技术支持；

[*]SparkR：Spark的R前端；

[*]Splunk：用于机器生成的数据的分析；

[*]Sumo Logic：基于云的分析仪，用于分析机器生成的数据；

[*]Talend：用于YARN、Hadoop、HBASE、Hive、HCatalog和Pig的统一开源环境；

[*]Warp：利用大数据（OS X app）的实例查询工具。

搜索引擎与框架
[*]Apache Lucene：搜索引擎库；

[*]Apache Solr：用于Apache Lucene的搜索平台；

[*]ElasticSearch：基于Apache Lucene的搜索和分析引擎；

[*]Enigma.io：为免费增值的健壮性web应用，用于探索、筛选、分析、搜索和导出来自网络的大规模数据集；

[*]Facebook Unicorn：社交图形搜索平台；

[*]Google Caffeine：连续索引系统；

[*]Google Percolator：连续索引系统；

[*]TeraGoogle：大型搜索索引；

[*]HBase Coprocessor：为Percolator的实现，HBase的一部分；

[*]Lily HBase Indexer：快速、轻松地搜索存储在HBase的任何内容；

[*]LinkedIn Bobo：完全由Java编写的分面搜索的实现，为Apache Lucene的延伸；

[*]LinkedIn Cleo：为一个一个灵活的软件库，使得局部、无序、实时预输入的搜索实现了快速发展；

[*]LinkedIn Galene：LinkedIn搜索架构；

[*]LinkedIn Zoie：是用Java编写的实时搜索/索引系统；

[*]Sphinx Search Server：全文搜索引擎

MySQL的分支和演化
[*]Amazon RDS：亚马逊云的MySQL数据库；

[*]Drizzle：MySQL的6.0的演化；

[*]Google Cloud SQL：谷歌云的MySQL数据库；

[*]MariaDB：MySQL的增强版嵌入式替代品；

[*]MySQL Cluster：使用NDB集群存储引擎的MySQL实现；

[*]Percona Server：MySQL的增强版嵌入式替代品；

[*]ProxySQL：MySQL的高性能代理；

[*]TokuDB：用于MySQL和 MariaDB的存储引擎；

[*]WebScaleSQL：运行MySQL时面临类似挑战的几家公司，它们的工程师之间的合作。

PostgreSQL的分支和演化
[*]Yahoo Everest - multi-peta-byte database / MPP derived by PostgreSQL.

[*]HadoopDB：MapReduce和DBMS的混合体；

[*]IBM Netezza：高性能数据仓库设备；

[*]Postgres-XL：基于PostgreSQL，可扩展的开源数据库集群；

[*]RecDB：完全建立在PostgreSQL内部的开源推荐引擎；

[*]Stado：开源MPP数据库系统，只针对数据仓库和数据集市的应用程序；

[*]Yahoo Everest：PostgreSQL可以推导多字节P比特数据库/MPP。

Memcached的分支和演化
[*]Facebook McDipper：闪存的键/值缓存；

[*]Facebook Memcached：Memcache的分支；

[*]Twemproxy：Memcached和Redis的快速、轻型代理；

[*]Twitter Fatcache：闪存的键/值缓存；

[*]Twitter Twemcache：Memcache的分支。

嵌入式数据库
[*]Actian PSQL：Pervasive Software公司开发的ACID兼容的DBMS，在应用程序中嵌入了优化；

[*]BerkeleyDB：为键/值数据提供一个高性能的嵌入式数据库的一个软件库；

[*]HanoiDB：Erlang LSM BTree存储；

[*]LevelDB：谷歌写的一个快速键-值存储库，它提供了从字符串键到字符串值的有序映射；

[*]LMDB：Symas开发的超快、超紧凑的键-值嵌入的式数据存储；

[*]RocksDB：基于性LevelDB，用于快速存储的嵌入式持续性键-值存储。

商业智能
[*]BIME Analytics：商业智能云平台；

[*]Chartio：精益业务智能平台，用于可视化和探索数据；

[*]datapine：基于云的自助服务商业智能工具；

[*]Jaspersoft：功能强大的商业智能套件；

[*]Jedox Palo：定制的商业智能平台；

[*]Microsoft：商业智能软件和平台；

[*]Microstrategy：商业智能、移动智能和网络应用软件平台；

[*]Pentaho：商业智能平台；

[*]Qlik：商业智能和分析平台；

[*]Saiku：开源的分析平台；

[*]SpagoBI：开源商业智能平台；

[*]Tableau：商业智能平台；

[*]Zoomdata：大数据分析；

[*]Jethrodata：交互式大数据分析。

数据可视化
[*]Airpal：用于PrestoDB的网页UI；

[*]Arbor：利用网络工作者和jQuery的图形可视化库；

[*]Banana：对存储在Kibana中Solr. Port的日志和时戳数据进行可视化；

[*]Bokeh：一个功能强大的Python交互式可视化库，它针对要展示的现代web浏览器，旨在为D3.js风格的新奇的图形提供优雅简洁的设计，同时在大规模数据或流数据集中，通过高性能交互性来表达这种能力；

[*]C3：基于D3可重复使用的图表库；

[*]CartoDB：开源或免费增值的虚拟主机，用于带有强大的前端编辑功能和API的地理空间数据库；

[*]chartd：只带Img标签的反应灵敏、兼容Retina的图表；

[*]Chart.js：开源的HTML5图表可视化效果；

[*]Chartist.js：另一个开源HTML5图表可视化效果；

[*]Crossfilter：JavaScript库，用于在浏览器中探索多元大数据集，用Dc.js和D3.js.效果很好；

[*]Cubism：用于时间序列可视化的JavaScript库；

[*]Cytoscape：用于可视化复杂网络的JavaScript库；

[*]DC.js：维度图表，和Crossfilter一起使用，通过D3.js呈现出来，它比较擅长连接图表/附加的元数据，从而徘徊在D3的事件附近；

[*]D3：操作文件的JavaScript库；

[*]D3.compose：从可重复使用的图表和组件构成复杂的、数据驱动的可视化；

[*]D3Plus：一组相当强大的可重用的图表，还有D3.js的样式；

[*]Echarts：百度企业场景图表；

[*]Envisionjs：动态HTML5可视化；

[*]FnordMetric：写SQL查询，返回SVG图表，而不是表；

[*]Freeboard：针对IOT和其他Web混搭的开源实时仪表盘构建；

[*]Gephi：屡获殊荣的开源平台，可视化和操纵大型图形和网络连接，有点像Photoshop，但是针对于图表，适用于Windows和Mac OS X；

[*]Google Charts：简单的图表API；

[*]Grafana：石墨仪表板前端、编辑器和图形组合器；

[*]Graphite：可扩展的实时图表；

[*]Highcharts：简单而灵活的图表API；

[*]IPython：为交互式计算提供丰富的架构；

[*]Kibana：可视化日志和时间标记数据；

[*]Matplotlib：Python绘图；

[*]Metricsgraphic.js：建立在D3之上的库，针对时间序列数据进行最优化；

[*]NVD3：d3.js的图表组件；

[*]Peity：渐进式SVG条形图，折线和饼图；

[*]Plot.ly：易于使用的Web服务，它允许快速创建从热图到直方图等复杂的图表，使用图表Plotly的在线电子表格上传数据进行创建和设计；

[*]Plotly.js：支持plotly的开源JavaScript图形库；

[*]Recline：简单但功能强大的库，纯粹利用JavaScript和HTML构建数据应用；

[*]Redash：查询和可视化数据的开源平台；

[*]Shiny：针对R的Web应用程序框架；

[*]Sigma.js：JavaScript库，专门用于图形绘制；

[*]Vega：一个可视化语法；

[*]Zeppelin：一个笔记本式的协作数据分析；

[*]Zing Charts：用于大数据的JavaScript图表库。

物联网和传感器
[*]TempoIQ：基于云的传感器分析；

[*]2lemetry：物联网平台；

[*]Pubnub：数据流网络；

[*]ThingWorx：ThingWorx 是让企业快速创建和运行互联应用程序平台；

[*]IFTTT：IFTTT 是一个被称为 “网络自动化神器” 的创新型互联网服务，它的全称是 If this then that，意思是“如果这样，那么就那样”；

[*]Evrythng：Evrythng则是一款真正意义上的大众物联网平台，使得身边的很多产品变得智能化。

文章推荐
[*]NoSQL Comparison（NoSQL 比较）- Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris comparison；

[*]Big Data Benchmark（大数据基准）- Redshift, Hive, Shark, Impala and Stiger/Tez的基准；

[*]The big data successor of the spreadsheet（电子表格的大数据继承者） - 电子表格的继承者应该是大数据。
论文2015 - 2016
[*]2015 - Facebook - One Trillion Edges: Graph Processing at Facebook-Scale.（一兆边：Facebook规模的图像处理）

2013 - 2014
[*]2014 - Stanford - Mining of Massive Datasets.（海量数据集挖掘）

[*]2013 - AMPLab - Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices. （Presto：稀疏矩阵的分布式机器学习和图像处理）

[*]2013 - AMPLab - MLbase: A Distributed Machine-learning System. （MLbase：分布式机器学习系统）

[*]2013 - AMPLab - Shark: SQL and Rich Analytics at Scale. （Shark: 大规模的SQL 和丰富的分析）

[*]2013 - AMPLab -GraphX: A Resilient Distributed Graph System on Spark. （GraphX:基于Spark的弹性分布式图计算系统）

[*]2013 - Google - HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm. （HyperLogLog实践:一个艺术形态的基数估算算法）

[*]2013 - Microsoft - Scalable Progressive Analytics on Big Data in the Cloud.（云端大数据的可扩展性渐进分析）

[*]2013 - Metamarkets - Druid: A Real-time Analytical Data Store. （Druid：实时分析数据存储）

[*]2013 - Google - Online, Asynchronous Schema Change in F1.（F1中在线、异步模式的转变）

[*]2013 - Google - F1: A Distributed SQL Database That Scales. （F1: 分布式SQL数据库）

[*]2013 - Google - MillWheel: Fault-Tolerant Stream Processing at Internet Scale.（MillWheel: 互联网规模下的容错流处理）

[*]2013 - Facebook - Scuba: Diving into Data at Facebook. （Scuba: 深入Facebook的数据世界）

[*]2013 - Facebook - Unicorn: A System for Searching the Social Graph. （Unicorn: 一种搜索社交图的系统）

[*]2013 - Facebook - Scaling Memcache at Facebook. （Facebook 对 Memcache 伸缩性的增强）

2011 - 2012
[*]2012 - Twitter - The Unified Logging Infrastructure for Data Analytics at Twitter. （Twitter数据分析的统一日志基础结构）

[*]2012 - AMPLab –Blink and It’s Done: Interactive Queries on Very Large Data. （Blink及其完成：超大规模数据的交互式查询）

[*]2012 - AMPLab –Fast and Interactive Analytics over Hadoop Data with Spark. （Spark上 Hadoop数据的快速交互式分析）

[*]2012 - AMPLab –Shark: Fast Data Analysis Using Coarse-grained Distributed Memory. （Shark：使用粗粒度的分布式内存快速数据分析）

[*]2012 - Microsoft –Paxos Replicated State Machines as the Basis of a High-Performance Data Store. （Paxos的复制状态机——高性能数据存储的基础）

[*]2012 - Microsoft –Paxos Made Parallel. （Paxos算法实现并行）

[*]2012 - AMPLab – BlinkDB：BlinkDB: Queries with Bounded Errors and Bounded Response Times on Very Large Data.（超大规模数据中有限误差与有界响应时间的查询）

[*]2012 - Google –Processing a trillion cells per mouse click.（每次点击处理一兆个单元格）

[*]2012 - Google –Spanner: Google’s Globally-Distributed Database.（Spanner：谷歌的全球分布式数据库）

[*]2011 - AMPLab –Scarlett: Coping with Skewed Popularity Content in MapReduce Clusters.（Scarlett：应对MapReduce集群中的偏向性内容）

[*]2011 - AMPLab –Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center.（Mesos：数据中心中细粒度资源共享的平台）

[*]2011 - Google –Megastore: Providing Scalable, Highly Available Storage for Interactive Services.（Megastore：为交互式服务提供可扩展，高度可用的存储）

2001 - 2010
[*]2010 - Facebook - Finding a needle in Haystack: Facebook’s photo storage.（探究Haystack中的细微之处： Facebook图片存储）

[*]2010 - AMPLab - Spark: Cluster Computing with Working Sets.（Spark:工作组上的集群计算）

[*]2010 - Google - Storage Architecture and Challenges.（存储架构与挑战）

[*]2010 - Google - Pregel: A System for Large-Scale Graph Processing.（Pregel: 一种大型图形处理系统）

[*]2010 - Google - Large-scale Incremental Processing Using Distributed Transactions and Notiﬁcations base of Percolator and Caffeine.（使用基于Percolator 和 Caffeine平台分布式事务和通知的大规模增量处理）

[*]2010 - Google - Dremel: Interactive Analysis of Web-Scale Datasets.（Dremel: Web规模数据集的交互分析）

[*]2010 - Yahoo - S4: Distributed Stream Computing Platform.（S4:分布式流计算平台）

[*]2009 - HadoopDB：An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads.（混合MapReduce和DBMS技术用于分析工作负载的的架构）

[*]2008 - AMPLab - Chukwa: A large-scale monitoring system.（Chukwa: 大型监控系统）

[*]2007 - Amazon - Dynamo: Amazon’s Highly Available Key-value Store.（Dynamo: 亚马逊的高可用的关键价值存储）

[*]2006 - Google - The Chubby lock service for loosely-coupled distributed systems.（面向松散耦合的分布式系统的锁服务）

[*]2006 - Google - Bigtable: A Distributed Storage System for Structured Data.（Bigtable: 结构化数据的分布式存储系统）

[*]2004 - Google - MapReduce: Simplied Data Processing on Large Clusters.（MapReduce: 大型集群上简化数据处理）

[*]2003 - Google - The Google File System.（谷歌文件系统）

视频数据可视化
[*]数据可视化之美

[*]Noah Iliinsky的数据可视化设计

[*]Hans Rosling's 200 Countries, 200 Years, 4 Minutes

[*]冰桶挑战的数据可视化
【编译自：https://github.com/onurakpolat/awesome-bigdata，译者：刘崇鑫校对：王殿进，来源于云栖社区】

DashiziSec 发表于 2016-9-16 23:01:45

确实好全！！！东西有点多！！！

页: [1]

捡代码论坛-最全的游戏源码下载技术网站！'s Archiver

史上最全的“大数据”学习资源整理【2-2】