爬取 分析视频素材的流程
聚焦在主流平台
主流平台就是有现成api搜索的平台
如果没有api 就需要用playwright 但是可能耗时更长 也更加偏离找素材的关键
目前主流平台都有现成高级api可以对接 如果找不到api则可能说明不是主流的平台
主流平台分为主流媒体和搜索引擎两大类
如果需要搜索小众的平台 建议对接搜索引擎 加入高级搜索参数 搜出来的链接拿来分析看能不能直接下载
api应该具有的功能
搜索 高定制搜索 可以做到不重复
视频信息(时长 播放量 简介 封面 字幕 标题 标签 评论)提取
相关视频推荐提取 首页推荐提取
热榜热搜提取 搜索补全提取
下载视频 尽量无水印 字幕
如果是要发布内容的平台 则需要有上传功能
上传视频 封面 简介 标签 合集信息 字幕
上传文章 图片
用什么关键词
找到最合适的 适合当前生成框架的素材 需要自己去尝试总结
当然也可以用关键字和评论 视频播放量反馈机制寻找合适的关键词 或者是神经网络 机器学习 或者是图数据库 推荐算法
标签
关键词 ->视频 -> 同类视频
某个观众 -> 同个作者
如何分析视频
首先要裁剪画中画 再去除水印 去文字 提高画质 提高帧数 如果需要提取识别字幕就需要在指定区域识别 语音识别如果要做就需要分离人声 检测文字流畅度 (对于外文或者歌曲可能不会很流畅)
根据一定的标准筛选 裁剪时长和画布 比如时长 音量 光流 文字面积 是否有人像 人物的动作幅度
如果要分离人声 一般要配合相应的字幕 还得变声 检测说话人有几个(如果多人说话 语音识别可能不会正常工作 文字流畅度低) 是男是女
如果需要音乐 BGM 一般不直接从视频里面提取 而是从简介里面找到关键字 拿到专门的音乐平台去搜索 音乐也可能需要筛选一下 根据类别和播放量 评论反馈筛选