Logo
    立即注册
    数说方舟
    产品文档
    添加数据源
    最近更新时间:2023-08-08 16:21:26

    进入刚刚创建的项目内,我们需要【新建数据源】,以供后续探索如何分析数据并制作应用。 数说方舟支持近百种多源异构数据可视化接入,本次将针对常用的【本地上传】方式进行介绍。

    前置条件

    • 用户已拥有一个项目
    • 用户拥有数据管理模块访问权限
    • 用户已下载好连接中的csv文件(点击链接即可下载文件下载链接

    步骤一 上传文件

    进入【数据管理】-【数据地图】页面中,点击左侧栏的【新建】,或者页面中的【新建数据源】。 file 点击后页面出现新建数据源弹窗,这里我们选择「常用」中的「csv」(与「文件上传」中的「csv」点击效果一致) file 选择本地文件(文件下载链接)到上传文件区域,等待文件上传到服务器。 file file

    注意!
    上传文件仅支持csv文件类型的数据,且支持同时上传5个文件,每个文件大小不超过2GB。
    文件的表头字段名含有特殊符号(.)会造成上传失败!

    步骤二 字段配置

    完成数据上传后,自动进入到字段配置。 用户可以手动配置字段类型,也可以支持【导入字段类型】或【复用数据源字段类型】。

    - 【导入字段类型】:用户可以基于模板,下载到本地编辑字段类型信息,再导入到平台。匹配上的字段,状态为「已更新」,若未匹配,则保持原有类型。
    - 【复用数据源字段类型】:针对项目内已存在数据结构一致的数据源,用户可选择复用该数据源的字段类型信息,匹配上的话,状态为「已更新」,若未匹配,则保持原有类型。
    - 【数组分割符】:针对数据类型为数组时,需要配置分隔符,系统基于该符号对上传的内容进行分组标识

    file 在本次上传的文件中,需要对以下字段进行字段类型更新。 我们可以通过搜索框查找字段,将字段类型更新为「数组-字符串」,字符分割符为「竖线 | 」

    (这里为什么要这么设置,我们会在步骤三解释)

    • 笔记里的标签列表
    • 话题
    • 关键词 file 完成字段类型调整后,我们通过状态筛选「已更新」,即可查看我们更新的内容,确认无误后,点击【下一步】 file
    注意!
    系统自动识别的字段类型,是基于抽取5K条数据进行推断,可能存在推断误差。
    数据源生成后,字段类型不允许随意修改,若要变更需通过数据处理作业进行类型转换或者重新上传

    步骤三 数据预览

    该步骤用于展示上传文件的数据内容及其配置后的字段信息,让用户可以基于数据内容检查字段类型是否满足要求。

    我们可以看下,上一步配置的【笔记里的标签列表】字段内容,原先系统将其识别为长文本,应该修改为数组用竖线分割,更为精准。

    file 若需要二次修改,可点击字段类型图标进行切换。(切换后,返回上一步,配置依旧生效哦) file

    步骤四 数据源配置

    该步骤主要用于配置数据源的名称、描述、存在目录、区分大小写配置。

    - 区分大小写:默认为关闭状态(不区分大小写),即无论搜索的关键词大小写如何,搜索结果都不受影响,会呈现相同的结果。例如,搜索“apple”、“Apple”、“aPpLe”都会显示相同的结果,因为大小写不影响搜索引擎识别关键词。
    - 目录:默认放在桌面,用户可以点击选择存放目录

    在该步骤我们采用默认配置即可,直接点击【确定】。接下来我们就耐心等待文件的上传。 file file 等待过程中,你可以看到该数据源,状态显示为紫色,且双击查看其详情出现报错。不用紧张,该数据源还处于上传中。 file

    状态标识 状态说明
    灰色 数据加载中
    绿色 数据源状态良好
    黄色 数据源状态不佳
    红色 数据源出现问题,无法访问
    紫色 数据源无法访问

    文件入库成功后,你将收到系统通知。若文件存在异常数据,也会在通知内容中告知。 file 点击查看通知,可看到文件成功上传且无异常。 file 双击数据源,即可预览该数据内容。点击右侧栏按钮,可以看到数据量为12092,与我们本地文件的数据量是一致的。 file

    file

    在【选择列】中勾选我们更新过字段类型的字段,可以看到其按数组形式存储与展示。 file

    至此,我们已经成功完成文件上传创建数据源的流程。我们可以基于该数据源,去完成后续的数据处理和分析服务等工作。

    步骤五 数据更新

    该步骤主要针对需要周期性本地上传文件更新数据的场景,非本地上传必要步骤。

    注意!
    更新数据功能仅针对本地上传的数据源

    数据源已完成创建,若需要再上传一份新的数据更新,可以双击查看数据源详情,点击【更新数据】。

    常见疑问

    • Q:为什么本地上传的文件有时候是mysql类型有时候是ES类型

    • A:系统会自动判断文件数据中有无数组字段,有的话按ES类型入库。若无数组字段且数据量小于5w,则按mysql入库。

    • Q:为什么上传后的文件数据量少了
    • 文件内容存在与字段类型不一致的情况,该条数据会被抛出,因此可能存在数据量异常,用户可通过数据源详情中的【标签与元信息】查看该数据更新的异常信息。

    • Q:我的文件长时间处于上传中状态
    • 你可以刷新下数据源页面,看下该数据源状态是否有更新;若超过5个小时没有进展,可以找下客服查看下原因。

    微信扫描二维码在线咨询