数据标注与模型训练平台 - 北京单元格科技有限公司

数据标注与模型训练平台

数据标注与模型训练平台

一站式人工智能开发平台，提供从数据标注->模型开发->模型训练->模型评估->模型发布全流程服务，提升AI开发的效率、降低开发成本、加速企业AI系统建设。

采用Docker容器进行算力资源的池化，通过Kubernetes进行整体的资源管理、资源分配、任务运行、状态监控等，平台通过数据标注、模型训练、模型发布，生成自定义的AI能力，为各行各业的业务服务提供有力的支撑。

数据管理

数据管理

用户可上传训练数据集并进行标注和管理，支持团队协作进行数据标注，标注支持的方式包括图像分类、目标检测等类型。并提供客⼾个性化需求，⽀持团队协作标注和审核及权限管理，确保协作⾼效和数据安全。

算法开发

算法开发

为开发者提供在线编程的环境，该环境中包含了一些常用深度学习框架，允许开发者在线创建、编辑、调试、保存自己的算法，以便进行后续的模型训练工作。

模型训练

模型训练

使用标注完成的数据集和开发完成的算法，在集群平台进行反复迭代与参数调优训练，最终得到结果模型。

模型管理

模型管理

深度整合算法开发环境，⽀持 Jupyter-Lab/⽹⻚终端/ssh 登录等多种开发调试⼯具。针对训练完成的模型或上传的模型进行管理，包括任务的创建与预测、评估、训练。

部署发布

部署发布

提供模型部署功能，针对模型管理中指定格式的模型进行部署，在线发布成服务。

基于Kubernetes集群化部署

基于Kubernetes集群化部署

技术方案采用基于Kubernetes的容器集群管理架构，统一进行资源协调与分配，搭配机器学习相关特定的算法业务流程，实现一体化训练平台的建设。

算法与训练数据的存储

算法与训练数据的存储

文件管理通过MinIO为用户提供专用的线上存储空间。数据标注时选择的数据源与标注成果存储于MinIO，通过与集群容器的融合实现分布式高性能存储。

模型的训练与发布

模型的训练与发布

模型管理可进行模型训练功能，并支持将模型布署为数据服务。模型管理中的预测任务、评估任务、评估引擎支持定制初始化参数。

领先的架构模式

基于统一的硬件资源基础，构建Docker运行支持，由Kubernetes进行容器编排，镜像管理使用Harbor，集群日志的实时采集由Fluentd实现，可视化日志信息的分析与展示由Elasticsearch 搭配Kibana进行。

前后端分离Web架构

平台采用前后端分离架构可有效隔离后端业务逻辑，方便后期将前端展示层进行定制与改版。前端采用Vue框架，后端采用基于Java语言的SpringBoot框架进行业务的封装与管理。

提升前端标注用户体验

深度融合标注框架LabelStudio的前端部分进行数据标注模块开发。前端将待标注对象数据传递给标注组件后，由标注组件负责展示与交互，标注结果提交给系统后台进行进一步管理与使用。

镜像的存储与使用

Docker可以轻松创建容器和基于容器的应用程序，提供小型和轻量级的执行环境用来共享操作系统内核。Harbor用于存储和分发Docker镜像，通过整合Docker和Harbor为集群训练任务提供支撑。

强大的统计与监控能力

Elasticsearch 是分布式、高扩展、高实时的搜索与数据分析引擎，可以针对大量数据进行搜索、分析和探索。使用 Kibana 来搜索、查看存储在 Elasticsearch 索引中的数据并与之交互。

分布式集群架构

利用Kubernetes将多台主机组合成集群来运行 Linux 容器，通过Kubernetes 可以简单高效地管理集群，集群的主机支持跨越公有云、私有云以及混合云。

日志收集与处理

在 Kubernetes 集群节点上安装 Fluentd，获取容器日志文件、过滤和转换日志数据，将数据传递到 Elasticsearch 集群，在集群中对其进行索引和存储。

⽀持技术共享和知识沉淀

平台通过算法仓库、模型的共享机制，实现私有/共享/公开三种级别的权限机制，监管资源与开发⼯作。稳定优秀的算法实现内部开源，加快算法开发效率，降低⾮专业算法部⻔的使⽤⻔槛。

集成式系统管理和监控

使用统一的权限管理，⽀持依据权限展⽰不同⻚⾯功能项，集成权限机制、⽤⼾管理、组织管理等管理手段，⽅便系统管理者的集中便捷管理。

为什么选择我们 ?

技术领域覆盖广泛，业务精通
项目经历丰富，技术实力深厚
专注客户服务，态度严谨务实

产品目录

关于我们

资源链接

联系我们