duangsuse::Echo
583 subscribers
4.12K photos
118 videos
579 files
6.13K links
import this:
美而不丑、明而不暗、短而不凡、长而不乱,扁平不宽,读而后码,行之天下,勿托地上天国。
异常勿吞,难过勿过,叹一真理。效率是很重要,盲目最是低效。
简明是可靠的先验,不是可靠的祭品。
知其变,守其恒,为天下式;穷其变,知不穷,得地上势。知变守恒却穷变知新,我认真理,我不认真。

技术相干订阅~
另外有 throws 闲杂频道 @dsuset
转载频道 @dsusep
极小可能会有批评zf的消息 如有不适可退出
suse小站(面向运气编程): https://WOJS.org/#/
Download Telegram
http://ice1000.org/2017/02/17/TranslationDLPL/ #ai #ann

之前稍微理解了一下 KNN 机器学习,但是不了解人工神经网络,现在看看
Forwarded from duangsuse Throws
#NEWS #Machl #ANN #music #recommended #Backend #media #bilibili
基于人工神经网络和音符拼接的『学院派』歌声合成引擎 SynthesizerV 1.0 正式发布
#life #dev duangsuse 落实 10:30 准时睡觉『政策』。 🐱

考虑到健康原因(不让自己的努力白费),每晚 10:30(h:m) 必须立即睡觉

== duangsuse::Echo 参考 #Telegram hashtags

duangsuse::Echo 常年利用 hastags 标记消息所含知识领域,并且,这也会为未来 Echo 频道进行简单准确的数据统计带来可能(不然,我也有其他手段,比如 NLP、统计预测)

以下是新的标签实例(不区分大小写、不能保证消息只含这些标签):

== 消息平台部分
#Telegram #zhihu #Github #so #Coolapk #book #wiki

== 注释部分
#life #China #School #Statement #lib #recommended #low #fix
#project #blog #share #Learn #paper
#dev #tech #art #meetUp #conference
#Moha #Haha
#gnu
#Microsoft #Mozilla #WeChat #QQ #Weibo #Tencent #Baidu #Ali #Qihoo
#tools #code

== 程序设计语言部分
#Kotlin #Java #JavaScript #JavaScript_ES6 #TypeScript
#Rust #Go #Swift #Dart #Crystal
#Ruby #Python #Perl #Tcl #Lua #PHP
#C #D #Cplusplus #CSharp #Objc
#Pascal #Fortran #Delphi #Ada #Basic #VisualBasic
#Scheme #Haskell #Scala #Clojure
#TeX #Graphviz
#Octave #Matlab
#Shell
(有些写出来是为了鼓励我去写,其实不一定真的写过)

== 软件平台部分
#Android #Windows #Win32 #MacOS #Java #Java_JVM #CLR #Qt #GTK #Tk #WxWidgets
#CSS #XML #JSON #KDE #Postgres #dotnet

== 软件技术领域部分

#backend #sysadmin #frontend #sysadmin_net

#OI #CS #IT #Informatics

#stat #ann #ann_dnn #machl
#math #math_linearAlgebra #math_discrete
#se #se_dia #se_ci #se_ee
#comm #net #www #web #http #html #mail #wireless
#circuit #embedded #os #db #db_relAlgebra #SQL
#bin #encoding #encoding_audio #encoding_image #encoding_video #encoding_text
#hpc #parallelism #distributed #simd #gpgpu #crypto
#pl #pl_plt #ce_vee #ce #ce_optimize #fp_monad #fp_proof #fp #oop #oop_arch #sp #parser
#algorithm #struct #lists #maps #sets
#security #security_lowlevel
#signalProc #nlp #phonetic
#cg #cg_dip #cg_3d #cg_2d #cg_lowlevel
#gui #gui_animation #gui_layouts #cli #visualization
duangsuse::Echo
#fix #cs 首先说两件错误: 1. #Python #cg #font 关于 freetype.py 的矩阵循环命名不当 出事的消息 👉 首先,不得不说 duangsuse 不是完全的了解 Python(比如说,我不理解 Python 元编程比如运算符重载、没有完整使用 Python 函数式编程、decorator,map 类数据结构,和 assert 等特性...),不过这其实也没啥 然后在吐槽丸自己后,我们来看看不对在哪里 def draw_bitmap(image, bitmap, x_pos=0…
顺便就说说两件事情:

1. 之前有一次想法中提到『RangeMap』这种数据结构的(我开始考虑滚动字幕的算法优化支持),其实根本不需要,因为二分查找就可以了(其实我开始打算就是封装 bsearch...)(在知道当前播放位置和可以比较跳转时轴的时候可以进一步取子序列优化,基本操作是根据时轴查歌词),Java 的 Arrays API 有封装

2. duangsuse 之前有不少次对自己能力有估量错误的(高估了)
希望你们都能理解,我经常这样
现在 duangsuse 基本是暂停了学习,所以很多时候 CS 的内容可能要发少一点了,唉 😿

不过还是会经常使用一下已有的技能的,
这个星期主要看了一点 Agda(record... corecord,typed printf,数组越界检查实现,parser、interpreter 什么的)
此外也有一点代码例子吧... #ann 人工神经网络机器学习的我肯定没看
冰封哥总是不会停止学习的,对吧?不过我可能要停止一会... 因为实战的时间实在是太少了,我没兴趣(虽然理论都搞不好)看理论

总之,之后的学习,到底要到什么程度,到底该怎么学,怎么协调数据结构算法、异步和消息驱动、并行编程、图形前端和计算机图形学、计算机网络、信号处理、机器学习、软件工程学科、函数式编程、编译原理、关系代数、Web 应用设计、图形用户界面应用设计、嵌入式、操作系统、密码学、信息学、线性代数这些方向,得看我自己的选择。(虽然其中很多我没开始或者不算入门,比如数学什么的...)
duangsuse::Echo
其实虽然对于计算机视觉来说,肯定是比简单的计算机图形学生成算法要耗时的 但是可以考虑有一些算法低劣的 spam bot,没有自动生成图片,沿用老图片在,所以可以保存已经判断为 spam 的图片 hashcode 再发封禁 再不济一点,可以找一下有没有图像的 SimHash 实现,先对比图片像素大小,完全等同就对比哈希码,类似就认为是 spam 图片,或者让机器人自动收集所有是 spam 的图片使用机器学习找出其中类似的像素簇、然后按大小模糊判定再加权回归,是个比执行 OCR 算法要好的方案或许吧(考虑到很少有…
因为我也不是机器学习和计算机图形学、信息学、密码学领域的人 #machl #ann #cg ....
自然语言处理我也是正在想办法准备学

所以我只好看看关键字匹配... 发现的确就是分词算法啊

https://github.com/CNBlackListR/CNBlackListSoamChecker/blob/aa281efd716a8c11876d755868125cd117aa38cb/CommandObject/SpamMessageChecker.cs#L37


简而言之,spam 打分算法就是接受 SpamMessage 配置和目标判断消息,返回 possibility 值的函数

这个关键字匹配算法虽然优化过,不过也是『简单』算法,因为它还是得判断 n 次加权(一个关键字判断一次,不能扫描一遍消息一起判断了)

具体的匹配算法就是:

如有字符串 "abcde" 关键字列表 [(1, "a"), (2, "de")]

foreach kw in kws
if strstr(snd kw, mesg) > 0: points +=
fst kw


而 strstr 是 libc 里的一个字符串搜索子串函数

这里要的是匹配,比如我们有字符串

a "hello fish sea world" 和 b "fish"

要判断 b 在 a 里出现了几次,我们可以这样:

枚举 a 里的索引『i』且『i + (b 的长度)小于 a 的长度』(就是所有 b 可能和 a 的某个子序列匹配的索引们)
对于所有 b 里的字符
如果『该字符』等于『a 枚举到的字符』继续判断
假如已经枚举到了最后一个字符,则匹配成功
否则 打断循环,跳过当前字符串的长度 — 我们只需要判断一个字符串,前面的索引 n 都不匹配后面的 x > n 匹配也没有用, skip 掉

好吧,如果你觉得上面的还是难于理解,那么这是一种算法:

它是从这里,Line range 47-75 抽提出来的一种字符序列匹配算法

它有两个输入,String str 和 String part、一个输出,int,返回 str 中 part 子序列的个数

比如 str = "12345ab3243ab..23ab", part = "ab" 输出 3

显然,它要计数数目、检查 str 和 part 相关索引的匹配,有

int count
size si, pi
size matched — 已经匹配的长度

它的逻辑很简单,就是枚举所有 str 和 part 可能重合的索引(str.length - part.length)
(si, pi) =>
再进行 str.subseq[si..].startWith(part) 判断

然后得基于当前的 si 位置再进行匹配,如果成功,则 ++count,如果还在判断 ++matched; ++pi; ++si,如果失败 si += (part.length - matched); pi = 0 // 跳过剩余,重新 match

这样碰到显然不是子序列的,直接跳过就好。

如果你还是无法理解,我正在做动态图....