爬取分析视频素材的流程

聚焦在主流平台

主流平台就是有现成api搜索的平台

如果没有api 就需要用playwright 但是可能耗时更长也更加偏离找素材的关键

目前主流平台都有现成高级api可以对接如果找不到api则可能说明不是主流的平台

主流平台分为主流媒体和搜索引擎两大类

如果需要搜索小众的平台建议对接搜索引擎加入高级搜索参数搜出来的链接拿来分析看能不能直接下载

搜索高定制搜索可以做到不重复

视频信息（时长播放量简介封面字幕标题标签评论）提取

相关视频推荐提取首页推荐提取

热榜热搜提取搜索补全提取

下载视频尽量无水印字幕

如果是要发布内容的平台则需要有上传功能

上传视频封面简介标签合集信息字幕

上传文章图片

找到最合适的适合当前生成框架的素材需要自己去尝试总结

当然也可以用关键字和评论视频播放量反馈机制寻找合适的关键词或者是神经网络机器学习或者是图数据库推荐算法

标签

关键词 ->视频 -> 同类视频

某个观众 -> 同个作者

首先要裁剪画中画再去除水印去文字提高画质提高帧数如果需要提取识别字幕就需要在指定区域识别语音识别如果要做就需要分离人声检测文字流畅度（对于外文或者歌曲可能不会很流畅）

根据一定的标准筛选裁剪时长和画布比如时长音量光流文字面积是否有人像人物的动作幅度

如果要分离人声一般要配合相应的字幕还得变声检测说话人有几个（如果多人说话语音识别可能不会正常工作文字流畅度低）是男是女

如果需要音乐 BGM 一般不直接从视频里面提取而是从简介里面找到关键字拿到专门的音乐平台去搜索音乐也可能需要筛选一下根据类别和播放量评论反馈筛选