所有 DNA 都由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来查找目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。
示例:
 
输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT" 输出:["AAAAACCCCC", "CCCCCAAAAA"]
 
解法相当简单:
1 开两个set集合 然后存储字符串
2 字符串每一个都截10是个长度
3 判断存储的里面是否已经含有 ,已经含有 放到输出的集合里面(判断好条件 s.length()-Max+1 )
4 注意: set可以自动转换为List ,因为set不含重复的 ,list里面含有重复的 ,所以可以new ArrayList( set);
class Solution {
    public List<String> findRepeatedDnaSequences(String s) {
        int Max=10;
        HashSet<String> set=new HashSet<String>();
        HashSet<String> out=new HashSet<String>();
        String str=null;
        for(int i=0;i<s.length()-Max+1;i++){
            str=s.substring(i,i+Max);
            if(set.contains(str)){
                out.add(str);
            }else{
            set.add(str);
            }
        }
        return new ArrayList<String>(out);
    }
}
