影视/番剧素材查找番剧精彩片段制作 Create Bangumi/Anime Highlights Collection

video summarization

Bilibili anime videos

aria2p

pyaria2

Chinese torrent sites

RSS feeds

netprogressbar server

This article dives into video summarization techniques and methods for acquiring content, specifically focusing on Bilibili’s anime videos. It demonstrates the use of command-line tools like aria2p and pyaria2 to download anime videos from Chinese torrent sites. The process involves selecting files, utilizing search engines, subscribing to RSS feeds, formatting episode numbers, and setting up a netprogressbar server for tracking progress.

Published

January 16, 2023

controllable video summarization

query controllable video summarization and paper

DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization

CLIP-It! Language-Guided Video Summarization

Convolutional Hierarchical Attention Network for Query-Focused Video Summarization

fuzzy search

fuzzywuzzy tutorial

thefuzz: Fuzzy String Matching in Python

data humanization

python-humanize

humanfriendly

观众情绪是唯一的标准。

影视番剧是可以通过专门的网站查找得到英文名称和中文名称的关联的可以利用这个关系得到YouTube上面的影评并生成中文标题

影视剪辑比较杂乱现在喜欢随便混搭意识流剪辑当然拿来做一般的素材也行不过就需要自己搭建处理了

爱奇艺有以图搜片不过只能搜爱奇艺有版权的

33台词根据电影台词来搜索电影出处同时有根据画面描述搜索视频片段画面清晰度不高其中文案转视频思路和我差不多

film.ai now can query screenshot and movie name by description and download thumbnails of movies (not latest, not mainland), but without subscription you cannot get accurate seek time (though it will never be accurate)

in imdb can pass film/anime name in multiple languages and get the english name (and trailer video), then query for it in 1337x (results sorted by seeder counts)

nyaa.si国内访问不上 nyaa镜像站列表比如 https://nyaa.unblockit.ink/ (navigate all unblockit sites, though nyaa is currently not mirrored by this site)https://nyaa.ink/ 其中有些NSFW的里面也搜不到番剧

nyaapy wiki

nyaapi wiki (nodejs)

torrent file parser and writer (python)

文本分类式的番剧剪辑需要分割时间段即每隔一分钟分割对应的弹幕并摘要或者字幕合并并进行打标签训练注意不要包括片头和片尾 (maybe audio only model like whisper will classify this successifully, remember to split (or not?) vocals from BGM? (to detect singing voice which is unique in OP/ED))

when transcoding (with seeking?) using ffmpeg tweak parameters. set low profile with high threads count (higher crf will result in poor quality but faster speed), although all these flags may result into unplayable video for some players.

ffmpeg -ss <seek_start> -to <seek_end> -i <video_url> -c:v libx264 -c:a [aac/copy] -threads 8 -crf 28 -preset ultrafast -tune zerolatency -movflags isml+frag_keyframe+empty_moov+faststart+delay_moov -f ismv -maxrate 2500k -bufsize 5000k <output_path>

使用网络链接进行ffmpeg seek (-c copy)如果不准确那么就是片子太短了或者是截取的片段太短了尝试下载全片之后在本地截取

用webtorrent替代aria2c 可以下载视频指定区域下载速度特别快记得及时关闭下载释放内存看看webtorrent-cli是怎么实现seek的如何对接ffmpeg

~~yt-dlp不一定能下载b站视频指定区域如果下载失败得到视频原地址之后执行：~~

~~ffmpeg -ss <start> -to <end> -c copy <video_url>~~

(其实就是没更新到最新版本)

准备片头和片尾准备视频模版每个片段不要太长选取多个番剧适当处理视频防止撞车

如果要剪短视频多用转场效果提取正在说话动作幅度大或者模型认为比较高能的片段

首先收集b站的动漫高能剪辑视频

提取标题标签封面

寻找类似封面根据封面生成标签或者根据标签寻找封面 (视频里面找或者类似图片)

训练根据封面和标签生成标题的模型或者自行发挥尝试只要看起来还行

分段分析视频片段用yolov8找出视频正在播放的区域 (画中画区域识别) 方便裁剪识别动漫

识别截图中的文字查看是否有重复的包含有番剧名称可以用来查找动漫

asoul database有识别截图出处的思路

asoul自动操作Windows上面剪映获取字幕剪映API基于pyautogui 可以使用免费的CI系统在云端windows机器上面运行程序

利用动漫素材来源定位网站可以锁定剪辑位置裁剪时间长度要控制只选取匹配度高的 NSFW的不要另外图像尺寸要合适要正好是视频截图注意网上的图片不一定是视频截图最好直接在视频里面找不要裁剪图片可能加了一些番剧没有的字符或者装饰 (saucenao>75 (能识别出来老番比如“没有钱” 但是老番一般没啥人做种下载可能很慢不如直接放弃有几率搜出来pixiv的插画显然不能拿来剪视频), trace.moe>75, both can detect latest (ongoing) bangume, select top-most) 如果匹配度不高就算了找下一个即使匹配度高也要充分怀疑同一段视频的某段区域多截图几次如果出来的不是同一个番或者不是同一个番的同一集或者不是连续的时间段 (分别探讨以上情况如果是番剧的开始/结束片段那么可能同时出现在多个分集里面如果确实是开头公用的画面必然会反复出现相同番剧的名字在这种情况下优先选取之前已经下载过的视频) 那么就说明结果不对头即使验证通过也得对剪出来的片段进行二次验证检测片段是否存在那个画面当然对于快速切换画面的确实有大量不同番剧片段出现在同一个视频的那就有待进一步探讨了

saucenao json api wrapper (python)

saucenao api keys found on github:

api_key = "6ccf5333e9c875421ff0764e2ed0c0cde1e3a0c7"

这种种子文件下载得到的视频往往带有字体文件可以收集用来做视频封面设计

番剧搜索引擎里面出现的问题比如不同番剧相似画面的相似度不应该那么高可以通过自监督强化学习解决另外画面裁剪的问题 (画中画裁剪小了或者大了或者有画面延伸) 都需要进一步改进最主要的还是要有大量的不断更新的数据当然目前来看这些不需要处理

因为大家都喜欢看中文字幕 (谁听得懂日语或者一边听日语一边看英文字幕啊) 尽量不用国外的片源如果只有国外的直接机器翻译能找到的公开字幕或者直接语音转文字图片转文字不过话说回来种子下载慢国内网站广告又多如果能单独下载字幕 (vcb的有单独分开的字幕可以下载) 对得上时间长度的话就可以获取到带字幕的老番

parse and extract subtitle files from mkv video using mkvmerge or ffmpeg

videocr: extract hard-coded subtitles from video by OCR

extract-subtitles 帧间差分法识别关键帧

anime downloaders: (hard to find chinese subtitles huh?)

animdl supports time ranges

monkey-dl

ani-cli (animixplay is gone, fixing?)

gogoanime-api in which you may not get raw video with japanese dub

jerry with subtitle language specification

下载下来之后得到视频字幕进行标记 (打上标签) 方便以后创作类似视频的时候查找以及作为数据集训练模型根据字幕/弹幕 (弹幕得去b站找并且自行提取) 或者结合视频内容 (算力够么需要人肉标记还是反复调用识图API进行标记或者用jina (fine-tuned?) 计算图像相似度) 预测不同类型高能片段的标签

老番可以在国内番剧网站寻找 b站有免费的那么可以尝试下载

tracker list for anime

种子站要能够根据seeder降序排序 vcb的一般seeder会很多但是其他字幕组的新番即使seeder比较少下载速度也会很快看情况而定 vcb只负责压制其他字幕组提供单独分开的字幕两者要单独下载 Nyaa支持该功能 Nyaa API 这个站将番剧分类为原盘英文翻译版 (这个分类经常会把多语言版本分类到这个区域) 其他语言翻译版中文翻译属于其他语言翻译版如果要找中文翻译版本先选定类型然后查找文件名是否包含指定代号有字幕文件的话先下载看看检测下主语言类别

aria2c can be controlled via python (to make sure it will exit immediately after finishing download instead of seeding and blocking, though can be achieved with some tweaks on commandline arguments to execute command after download finished signal emitted): aria2p (can be used both as a library or cli program), pyaria2 (old) searching aria2 in github, i found some repos relating to baidunetdisk.

到国内番剧种子站去找片源 (这些站基本一个样) 新番下载较快老番下载会非常慢几乎龟速 (检查有没有seeder 一个都没有就别想下了直接放弃以及监控下载进度一段时间没有进度基本凉了) 而不是一些在线观看的网站 (视频不清晰还有广告在里面) 由于没法用yt-dlp选取段落下载 (但是webtorrent可以) 最好用云电脑下载然后回传关掉aria2c的做种选项下完自动关闭如果是合集需要选择指定的对象进行下载

aria2c --show-files target.torrent
aria2c -x 16 --file-allocation=none --select-file=<file_index> target.torrent

得到了番剧命名格式之后建议利用第三方搜索引擎搜索

这些种子站一般都会把新番做成rss 用来订阅做新番推荐比较合适需要找到番剧介绍的文章来转化资源的名称遵循某种格式番剧名称会用不同语言标注提示字幕的格式番剧番号用空格英文或者中文括号括住一般至少两位数小于两位会补零海边的异乡人之类的只有一集没有episode提示

如果要实时看云电脑的进度可以自己搭建一个netprogressbar server 根据约定好的url和密码 (read-only and write-only password, or both, by setting different privilege) 来上报和接收进度 server要及时回收资源

番剧信息包括名称类型标签具体第几话单季和多季有别如果是多季的话需要研究如何找出来提取名字要完整如果有续集 (比如”Yahari Ore no Seishun Lovecome wa Machigatte Iru.”) 那么要改进parse逻辑准确识别 (要么在番剧名字alias识别上下功夫要么找到续集名字过滤掉续集名字并保留alias名字看看名字之间是不是有包含关系没包含关系就不用过滤到anidb.net找)

anidb搜索有时会直接跳转到指定番剧页面需要根据链接地址和内容判断是否存在跳转以及如何分别进行解析

anilist python wiki

anilist api v2 docs

有提取画面中动漫人物信息以及所属番剧的网站 Python API 只支持日漫该网站在b站的使用方法介绍注册码目前是hello2023 可以用来做单个人物合集在发送截图之前先用模型扫描一下到底有没有动漫人脸如果没有就不用上传了识别不出来

trailer也可以用来训练视频摘要模型提取番剧精彩片段可以作为素材