Logo
    立即注册
    提交ASR任务
    最近更新时间:2023-01-13 09:15:06
    • 请求示例,以HDFS为例子

      curl -XPOST -H 'Content-Type: application/json' \
      -H 'Authorization: your token here' \
      -d '{
        "inputFileSystemInfo": {
          "fileSystemType": "HDFS",
          "port": "your_hdfs_namenode_httpserver_port",
          "userName": "your_hdfs_userName",
          "host": "your_hdfs_namenode_httpserver_host",
          "spareHost": "your_hdfs_SecondaryNameNode_host",
          "inputPath": "your_input_file_path"
      },
        "outputFileSystemInfo": {
          "fileSystemType": "HDFS"
          "port": "your_hdfs_namenode_httpserver_port",
          "userName": "your_hdfs_userName",
          "host": "your_hdfs_namenode_httpserver_host",
          "spareHost": "your_hdfs_SecondaryNameNode_host",
          "outputPath": "your_output_path_here"
      },
      "mailAddress": "your email here"
      }' https://open.datastory.com.cn/api/algorithm/asr/add
    • 请求说明

      • 请求头Authorization的token请联系算法平台同事提供
      • inputFileSystemInfo、outputFileSystemInfo为输入输出文件的信息
        • fileSystemType:填HDFS,如需其他类型的文件作为输入输出系统,请联系算法平台同事
        • inputPath:输入文件的路径
        • outputPath:输出文件夹的路径
      • mailAddress:邮箱地址。用于接收任务状态的邮件,当任务异常、任务被取消会以邮件的形式发送到该邮箱地址。

      • 输入文件是一个csv,id为业务Id,url为需要识别的视频地址,下载查看示例文件https://oss.datastory.com.cn/scavenger/asr_test_2/example.csv
    • 返回结果:算法任务id,凭此id查询任务状态
    • 结果文件名为【video_txt.json】,每一行表示一个视频的解析结果,每一行的示例及说明如下:
      示例:
      {"id": "3xkid65u63easfw.mp4", "result": "{\"subtitle_flag\": -1, \"text\": \"来吧展示。总是梦梦宅千百万事要。哎有事就想不开今后火算离开一头回波。生安为男人回瑰本夜。世界人我的抓分沉抓翻沉稳人是人了别是给我占友还说放厕火人。桃花爱刷头花爱说家人定我。\", \"subtitle_time_interval\": [[], [], []], \"huazi\": \"\", \"huazi_time_interval\": [[], [], []], \"MultimodalVideoTag\": [[\"其他视频类型\", \"情景剧-单人情景剧\", \"母婴用品\", \"no\"], [0.44218122959136963, 0.2897908389568329, 0.39443475008010864, 0.8961179852485657]]}"}
      说明:
      subtitle_flag:0代表text和huazi部分都是OCR从视频帧中识别,不进行ASR语音识别;-1代表OCR未能定位到字幕位置,所以OCR部分统一归为花字;text结果为ASR识别的结果。
      text:代表视频的语音/字幕
      subtitle_time_interval:为3*n的二维数组,其中第一个数组代表文本的开始时间,第二个数组代表文本的结束时间,第三个数组代表文本的停止index
      huazi:代表视频中非字幕部分的文本
      huazi_time_interval:同subtitle_time_interval字段类似,指向的字符串为huazi
      MultimodalVideoTag:多模态视频分类,从左到右分别为:展示形式(一级)、展示形式(二级)、行业分类、 是否营销。第二个数组的数字表示分类的置信度
      -----------------------
      常见情况:
      subtitle_flag=0且text为空,表示下载视频文件失败
      subtitle_flag=-1且text为空,表示识别不出结果

    微信扫描二维码在线咨询