最新
Fork 0 关注 0

本项目是基于Python实现的近似最近邻算法的基准程序。在高维空间中快速搜索最近的邻居已成为一个越来越重要的问题,但是到目前为止,还没有很多以客观方式比较方法的经验性尝试。该项目包含一些工具,用于对不同度量的近似最近邻(ANN)搜索的各种实现进行基准测试,并且还为每种算法提供了Docker镜像和相应的数据集。

原始仓库地址:https://github.com/erikbern/ann-benchmarks.git

浏览量:3 下载量:0 项目类别: 大数据
13 days前更新
landsat-util Python
Fork 0 关注 0

本项目用于是适用于Landsat 8卫星图像的搜索、下载和处理程序。本项目简单方便,开发者可以直接在 terminal 中运行,并提供有相关 API 的说明文档,方便开发者查阅。

原始仓库地址:https://github.com/developmentseed/landsat-util.git

浏览量:0 下载量:0 项目类别: 大数据
13 days前更新
geolambda Python
Fork 0 关注 0

本项目用于创建和部署空间地理数据。本项目包含库PROJ.5,GEOS,GeoTIFF,HDF4 / 5,SZIP,NetCDF,OpenJPEG,WEBP,ZSTD和GDAL,同时提供有 Docker 镜像和 AWS Lambda 函数,方便开发者根据需求进行选择。

原始仓库地址:https://github.com/developmentseed/geolambda.git

浏览量:1 下载量:0 项目类别: 大数据
13 days前更新
label-maker Python
Fork 0 关注 0

本项目能自动为数据添加标签。Label Maker会针对机器学习算法的训练数据生成训练数据,这些数据通常是俯视图图像(例如,来自卫星或无人机的图像)。它将下载OpenStreetMap质量检查图块信息和高架图像图块,并将它们另存为Numpy .npz文件,以方便在后续的机器学习算法中使用。

原始仓库地址:https://github.com/developmentseed/label-maker.git

浏览量:2 下载量:0 项目类别: 大数据
13 days前更新
stringsifter Python
Fork 0 关注 0

本项目是一个机器学习工具,可根据字符串与恶意软件分析的相关性对其进行排名。反向工程师可以使用大量工具来分析恶意软件二进制文件。在进行恶意软件分析时,他们会依次应用这些工具,以便逐渐收集有关二进制文件功能,设计检测方法的线索,并确定如何控制其损坏。本项目使用“学习排名”模型可以有效地区分各个恶意软件样本的Strings输出。

原始仓库地址:https://github.com/fireeye/stringsifter.git

浏览量:1 下载量:0 项目类别: 大数据
18 days前更新
Fork 0 关注 0

本项目是一个全面的数据和文本挖掘项目,可以分析并处理 Reddit 网站中的评论。本项目可以用于处理 Reddit使用PushshiftAPI 下载大量提交内容和评论的过程,以获取有趣的见解,例如按工作日,小时和最常用词的分布。

原始仓库地址:https://github.com/phantominsights/subreddit-analyzer.git

浏览量:1 下载量:0 项目类别: 大数据
18 days前更新
Fork 0 关注 0

本项目是一个大数据分析项目,针对 《Baby Names from Social Security Card Applications - National Data》 数据集进行Extract-Transform-Load(ETL)和分析,可以得到历年来最热门的姓名,并绘制出图表,可视化效果更好。

原始仓库地址:https://github.com/phantominsights/baby-names-analysis.git

浏览量:1 下载量:0 项目类别: 大数据
18 days前更新
heamy Python
Fork 0 关注 0

本项目构建了一套用于数据科学的处理工具库。能够为用户提供多种科学计算算法,包括自动缓存(数据预处理、模型预测) 以及集成学习(叠加、混合、加权平均等)等常用算法。

原始仓库地址:https://github.com/rushter/heamy.git

浏览量:4 下载量:0 项目类别: 大数据
20 days前更新
Fork 0 关注 0

本项目为一个在线的电影推荐系统,使用Spark、Flask构建,并在MovieLens数据集上进行训练。本项目主要分为两步:首先是将电影和收视率数据获取和解析为Spark RDD。然后是构建和使用推荐器,并将其保留以供以后在我们的在线推荐器系统中使用。

原始仓库地址:https://github.com/jadianes/spark-movie-lens.git

浏览量:12 下载量:0 项目类别: 大数据
about 1 month前更新
Fork 0 关注 0

**TDengine**是为物联网设计优化的开源大数据平台。 **TDengine**是GNU AGPL v3.0下的开源大数据平台,针对物联网(IoT)、互联汽车、工业物联网、IT基础设施和应用监控进行设计和优化。除了更快的时间序列数据库,它还提供缓存、流计算、消息队列和其他功能,以降低开发和操作的复杂性和成本。它的特点是: - 插入/查询速度快10倍 - 1/5的硬件/云服务成本 - 时间序列数据的完整堆栈 - 强大的数据分析 - 与其他工具的无缝集成 - 零管理,无学习曲线

原始仓库地址:https://github.com/taosdata/TDengine.git

浏览量:1740 下载量:175 项目类别: 大数据
7 months前更新

ihub@pcl.ac.cn 鹏城实验室人工智能研究中心

版权所有:鹏城实验室    粤ICP备18066427号-6    Powerd by 国防科技大学Trustie